SFF (.sff)

予備知識

    • MIMEタイプ:chemical/seq-na-sff
    • SFF分子生物学形式.
    • DNA配列の保管と交換のための標準フローグラム形式.
    • 主に454 Life Sciences社のDNAパイロ配列決定用プラットフォームで使用される.
    • バイナリ形式.
    • 核酸の配列と塩基品質をそれぞれ文字列とリストとして保管する.
    • ファイルには配列決定についてのメタ情報が保管される.を表すために多くの表記方法が使われている.

Import

  • Import["file.sff"]はSFFファイルからDNA配列決定データをインポートする.
  • Import["file.sff"]はファイルに保管された配列決定データを表す配列を返す.
  • Import["file.sff",elem]はSFFファイルから指定の要素をインポートする.
  • Import["file.sff",{{elem1,elem2,}}]は複数の要素をインポートする.
  • インポート形式はImport["file","SFF"]またはImport["file",{"SFF",elem,}]で指定できる.
  • Importについての一般的な全情報は関数ページを参照のこと.
  • ImportStringはSFF形式をサポートする.
  • 一般的な情報は,以下の関数ページを参照のこと.
  • Importファイルからインポートする
    CloudImportクラウドオブジェクトからインポートする
    ImportString文字列からファイルからインポートする
    ImportByteArrayバイト配列からインポートする

Import要素

  • 一般的なImport要素:
  • "Elements" ファイル中の有効な要素とオプションのリスト
    "Summary"ファイルの概要
    "Rules"使用可能なすべての要素の規則のリスト
  • ファイルのメタデータ:
  • "Header"規則のリストとして与えられるファイルヘッダ
    "XMLManifest"XMLオブジェクトとして表されるXMLマニフェスト
  • 配列決定リードのデータ表現要素:
  • "Sequence"文字列のリストで表されたDNA配列
    "Qualities"文字列のリストで表された塩基品質
    "FlowgramValues"リストのリストで表されたフローグラムの値
    "FlowIndexPerBase"リストのリストで表されたフロー指標値
    "ClipQualities"配列で表された,配列の品質トリミングの座標
    "ClipAdapter"配列で表された,配列のアダプタートリミングの座標
    "ReadName"文字列のリストで表されたリード名
  • その他のデータ要素:
  • "Data"リストに組み合された,データ表現要素
    "LabeledData"ファイルに保管された各配列の規則のリスト
  • ImportはデフォルトではSFF形式に"Data"要素を使用する.
  • Wolfram言語は核酸に標準IUB/IUPAC省略形を使用する:
  • Aアデノシン
    Cシチジン
    Gグアニン
    Tチミジン
    Uウラシル
    Rプリン(GまたはA)
    Yピリミジン(TまたはC)
    Kケトン(GまたはT)
    Mアミノ基(AまたはC)
    S強い相互作用(GまたはC)
    W弱い相互作用(AまたはT)
    BCまたはGまたはT
    DAまたはGまたはT
    HAまたはCまたはT
    VAまたはCまたはG
    N任意の核酸(AまたはCまたはGまたはT)
    -不明な長さのギャップ
  • Wolfram言語は塩基品質に整数を使用する.

例題

すべて開くすべて閉じる

  (5)

サンプルSFFファイルからファイルヘッダを読み込む:

DNA配列を読み込む:

品質,フローグラム値等を含むDNA配列を読み込む:

ファイル内のリード名をインポートする:

配列の項目を名前で取り出す:

ファイル内の配列決定のXMLマニフェストを取り出し,解析名を抽出する:

スコープ  (3)

品質トリミング座標に基づいて配列をトリムする:

文字コードの品質スコアに64を加えてSFFファイルをFASTQに変換する:

フローグラム強度値をプロットする: