WARC (.warc)

予備知識

    • MIMEタイプ:application/warc.
    • Webアーカイブ形式
    • Webページの完全アーカイブに使用される.
    • Internet ArchiveのARCファイル形式を改訂したものである.
    • ISO 28500をサポートする.

Import

  • 一般的な情報は,以下の関数ページを参照のこと.
  • Importファイルからインポートする
    CloudImportクラウドオブジェクトからインポートする
    ImportString文字列からファイルからインポートする
    ImportByteArrayバイト配列からインポートする

Import要素

  • 一般的なImport要素:
  • "Elements" ファイル中の有効な要素とオプションのリスト
    "Summary"ファイルの概要
    "Rules"使用可能なすべての要素の規則のリスト
  • その他の要素:
  • "Dataset" 解釈された一般的なWARC要素を含むデータセット
    "RawDataset"すべての解釈されたWARC要素を含むデータセット
    "RawStringDataset"一般的な未フォーマットWARCヘッダを含むデータセット
    "RawData"すべての未フォーマットWARCヘッダを含むデータセット
  • "Dataset"要素と"RawDataset"要素は日付をDateObjectとして,ペイロードをHTTPRequestとして解釈する.
  • "RawStringDataset"要素と"RawData"要素は解釈を行わない.
  • "Dataset"要素と"Headers"要素は各WARC要素に対して必ず以下の情報を返す:
  • "URL"要素のURL
    "ContentType"MIMEコンテントタイプ
    "Content"要素の主な内容
    "AccessDate"リソースがアクセスされた日
    "WARCType"WARC要素のタイプ
    "WARCVersion"WARC要素のバージョン
    "WARCRecordID"要素の固有の識別子
  • "RawDataset"要素と"RawData"要素は"WARC-Block-Digest"等,この他の要素を返すことがある.

例題

  (1)

WARCファイルをインポートする:

すべてのヘッダをインポートする: