WARC (.warc)

背景

    • MIME 类型: application/warc.
    • 网页存档格式.
    • 用于完整网页存档.
    • 互联网档案馆的 ARC 文件格式改版.
    • 支持 ISO 28500.

Import

Import 参数

  • Import 的通用参数:
  • "Elements" 该文件可用的参数和选项列表
    "Summary"文件摘要
    "Rules"所有可用参数的规则列表
  • 附加参数包括:
  • "Dataset" 数据集包含通用经解释的 WARC 参数
    "RawDataset"数据集包含全部经解释的 WARC 参数
    "RawStringDataset"数据集包含通用无格式的 WARC 开头
    "RawData"数据集包括前部无格式的 WARC 开头
  • "Dataset""RawDataset" 参数将数据解释为 DateObject,并将有效载荷解释为 HTTPRequest.
  • "RawStringDataset""RawData" 参数不执行任何解释.
  • "Dataset""Headers" 参数总返回以下信息用于每个 WARC 参数:
  • "URL"参数的 URL
    "ContentType"MIME 内容类型
    "Content"参数的主要内容
    "AccessDate"资源何时被访问
    "WARCType"WARC 参数的类型
    "WARCVersion"WARC 参数的版本
    "WARCRecordID"唯一 元素识别符号
  • "RawDataset""RawData" 参数可能返回附加参数,例如 "WARC-Block-Digest".

范例

基本范例  (1)

导入一个 WARC 文件:

导入所有开头: