WARC (.warc)
背景
-
- MIME 类型: application/warc.
- 网页存档格式.
- 用于完整网页存档.
- 互联网档案馆的 ARC 文件格式改版.
- 支持 ISO 28500.
Import 参数
- Import 的通用参数:
-
"Elements" 该文件可用的参数和选项列表 "Summary" 文件摘要 "Rules" 所有可用参数的规则列表 - 附加参数包括:
-
"Dataset" 数据集包含通用经解释的 WARC 参数 "RawDataset" 数据集包含全部经解释的 WARC 参数 "RawStringDataset" 数据集包含通用无格式的 WARC 开头 "RawData" 数据集包括前部无格式的 WARC 开头 - "Dataset" 和 "RawDataset" 参数将数据解释为 DateObject,并将有效载荷解释为 HTTPRequest.
- "RawStringDataset" 和 "RawData" 参数不执行任何解释.
- "Dataset" 和 "Headers" 参数总返回以下信息用于每个 WARC 参数:
-
"URL" 参数的 URL "ContentType" MIME 内容类型 "Content" 参数的主要内容 "AccessDate" 资源何时被访问 "WARCType" WARC 参数的类型 "WARCVersion" WARC 参数的版本 "WARCRecordID" 唯一 元素识别符号 - "RawDataset" 和 "RawData" 参数可能返回附加参数,例如 "WARC-Block-Digest".