WARC (.warc)
予備知識
-
- MIMEタイプ:application/warc.
- Webアーカイブ形式
- Webページの完全アーカイブに使用される.
- Internet ArchiveのARCファイル形式を改訂したものである.
- ISO 28500をサポートする.
Import
- 一般的な情報は,以下の関数ページを参照のこと.
-
Import ファイルからインポートする CloudImport クラウドオブジェクトからインポートする ImportString 文字列からファイルからインポートする ImportByteArray バイト配列からインポートする
Import要素
- 一般的なImport要素:
-
"Elements" ファイル中の有効な要素とオプションのリスト "Summary" ファイルの概要 "Rules" 使用可能なすべての要素の規則のリスト - その他の要素:
-
"Dataset" 解釈された一般的なWARC要素を含むデータセット "RawDataset" すべての解釈されたWARC要素を含むデータセット "RawStringDataset" 一般的な未フォーマットWARCヘッダを含むデータセット "RawData" すべての未フォーマットWARCヘッダを含むデータセット - "Dataset"要素と"RawDataset"要素は日付をDateObjectとして,ペイロードをHTTPRequestとして解釈する.
- "RawStringDataset"要素と"RawData"要素は解釈を行わない.
- "Dataset"要素と"Headers"要素は各WARC要素に対して必ず以下の情報を返す:
-
"URL" 要素のURL "ContentType" MIMEコンテントタイプ "Content" 要素の主な内容 "AccessDate" リソースがアクセスされた日 "WARCType" WARC要素のタイプ "WARCVersion" WARC要素のバージョン "WARCRecordID" 要素の固有の識別子 - "RawDataset"要素と"RawData"要素は"WARC-Block-Digest"等,この他の要素を返すことがある.