Parquet (.parquet)
背景
-
- 注册的 MIME 类型:application/vnd.apache.parquet
- 高效、通用的列式数据格式.
- 由 Apache 软件基金会开发.
- 二进制文件格式.
- 支持多种压缩方法.
导入与导出
- Import["file.parquet"] 将 Parquet 文件导入为 Tabular 对象.
- Import["file.parquet",elem] 导入指定的元素.
- Import["file.parquet",{elem,subelem1,…}] 导入子元素 subelemi,适用于部分数据导入.
- 可以使用 Import["file","Parquet"] 或 Import["file",{"Parquet",elem,…}]指定导入格式.
- Export["file.parquet",expr] 根据 expr 创建一个 Parquet 文件.
- 支持的表达式 expr 包括:
-
{v1,v2,…} 单列数据 {{v11,v12,…},{v21,v22,…},…} 数据行列表 array 数组,例如 SparseArray、QuantityArray 等 dataset Dataset 或 Tabular 对象 - 有关完整的通用信息,请参阅以下参考页面:
-
Import, Export 从文件导入或导出至文件 CloudImport, CloudExport 从云对象导入或导出至云对象 ImportString, ExportString 从字符串导入或导出为字符串 ImportByteArray, ExportByteArray 从字节数组导入或导出为字节数组
导入元素
- Import 的通用参数:
-
"Elements" 此文件中可用的元素和选项列表 "Summary" 文件摘要 "Rules" 所有可用元素的规则列表 - 数据表示元素:
-
"Data" 二维数组 "Dataset" 作为 Dataset 的表格数据 "Tabular" Tabular 对象 - Import 默认使用 "Tabular" 元素.
- "Tabular" 元素的部分数据导入的子元素可以采用 {"Tabular",rows,cols} 形式的行和列规范,其中 rows 和 cols 可以是以下任一种:
-
n 第 n 行或列 -n 从最后开始计数 n;;m 从 n 到 m n;;m;;s 从 n 到 m,步长为 s {n1,n2,…} 特定行或列 ni - 数据描述符元素:
-
"ColumnLabels" 列名 "ColumnTypes" 与每列数据类型的关联 "Schema" TabularSchema 对象 - 元数据元素:
-
"ColumnCount" 文件中存储的列数 "Dimensions" 数据维度 "RowCount" 文件中存储的行数 "MetaInformation" 元数据
选项
- Import 的通用选项:
-
IncludeMetaInformation All 要导入的元数据类型 "Schema" Automatic 用于构建 Tabular 对象的架构 - "Schema" 选项的可能设置包括:
-
schema 完整的 TabularSchema 规范 propval 架构属性和值(参阅 TabularSchema 的参考页面) <|"prop1"val1,…|> 架构属性和值的关联 - Export 的通用选项:
-
"Compression" None 压缩方法 CompressionLevel Automatic 压缩级别 - 支持以下 "Compression" 设置:
-
None 无压缩 "Brotli" Brotli 压缩 "GZIP" GZIP 压缩 "LZ4" LZ4 压缩 "LZ4Hadoop" LZ4 Hadoop 压缩 "Snappy" Snappy 压缩 "ZSTD" ZSTD 压缩