Wolfram 语言与系统参考资料中心

Parquet (.parquet)

参见
- 函数
- Import
- Export
- CloudExport
- CloudImport
- 格式
- CSV
- ArrowIPC
- ArrowDataset
- ORC
相关指南
- 参见
  - 函数
  - Import
  - Export
  - CloudExport
  - CloudImport
  - 格式
  - CSV
  - ArrowIPC
  - ArrowDataset
  - ORC
- 相关指南

Parquet (.parquet)

Import 和 Export 支持 Parquet 版本 2.6.

背景

- 注册的 MIME 类型：application/vnd.apache.parquet
- 高效、通用的列式数据格式.
- 由 Apache 软件基金会开发.
- 二进制文件格式.
- 支持多种压缩方法.

导入与导出

Import["file.parquet"] 将 Parquet 文件导入为 Tabular 对象.
Import["file.parquet",elem] 导入指定的元素.
Import["file.parquet",{elem,subelem₁,…}] 导入子元素 subelem_i，适用于部分数据导入.
可以使用 Import["file","Parquet"] 或 Import["file",{"Parquet",elem,…}]指定导入格式.
Export["file.parquet",expr] 根据 expr 创建一个 Parquet 文件.
支持的表达式 expr 包括：

	{v₁,v₂,…}	单列数据
	{{v₁₁,v₁₂,…},{v₂₁,v₂₂,…},…}	数据行列表
	array	数组，例如 SparseArray、QuantityArray 等
	dataset	Dataset 或 Tabular 对象

有关完整的通用信息，请参阅以下参考页面：

	Import, Export	从文件导入或导出至文件
	CloudImport, CloudExport	从云对象导入或导出至云对象
	ImportString, ExportString	从字符串导入或导出为字符串
	ImportByteArray, ExportByteArray	从字节数组导入或导出为字节数组

导入元素

Import 的通用参数：
"Elements" 此文件中可用的元素和选项列表

"Summary" 文件摘要

"Rules" 所有可用元素的规则列表
数据表示元素：
"Data" 二维数组

"Dataset" 作为 Dataset 的表格数据

"Tabular" Tabular 对象
Import 默认使用 "Tabular" 元素.
"Tabular" 元素的部分数据导入的子元素可以采用 {"Tabular",rows,cols} 形式的行和列规范，其中 rows 和 cols 可以是以下任一种：
n 第 n 行或列

-n 从最后开始计数

n;;m 从 n 到 m

n;;m;;s 从 n 到 m，步长为 s

{n₁,n₂,…} 特定行或列 n_i
数据描述符元素：
"ColumnLabels" 列名

"ColumnTypes" 与每列数据类型的关联

"Schema" TabularSchema 对象
元数据元素：
"ColumnCount" 文件中存储的列数

"Dimensions" 数据维度

"RowCount" 文件中存储的行数

"MetaInformation" 元数据

选项

Import 的通用选项：
IncludeMetaInformation All 要导入的元数据类型

"Schema" Automatic 用于构建 Tabular 对象的架构
"Schema" 选项的可能设置包括：

	schema	完整的 TabularSchema 规范
	propval	架构属性和值（参阅 TabularSchema 的参考页面）
	<\|"prop₁"val₁,…\|>	架构属性和值的关联

Export 的通用选项：
"Compression" None 压缩方法

CompressionLevel Automatic 压缩级别
支持以下 "Compression" 设置：

	None	无压缩
	"Brotli"	Brotli 压缩
	"GZIP"	GZIP 压缩
	"LZ4"	LZ4 压缩
	"LZ4Hadoop"	LZ4 Hadoop 压缩
	"Snappy"	Snappy 压缩
	"ZSTD"	ZSTD 压缩

范例

打开所有单元关闭所有单元

基本范例 (3)

从 Parquet 文件导入 Tabular 对象：

导入文件摘要：

将 Tabular 对象导出到 Parquet：

范围 (3)

导入 (3)

显示文件中可用的所有元素：

默认情况下，返回 Tabular 对象：

导入列类型：

导入元素 (14)

"ColumnCount" (1)

获取列数：

"ColumnLabels" (1)

读取列名：

"ColumnTypes" (1)

导入列类型：

"Data" (2)

从文件中获取数据：

仅导入选定的行：

仅导入选定的列：

"Dataset" (2)

以 Dataset 形式获取数据：

仅导入选定的行：

仅导入选定的列：

"Dimensions" (1)

导入数据维度：

"MetaInformation" (1)

导入元数据：

"RowCount" (1)

获取行数：

"Schema" (1)

获取 TabularSchema 对象：

"Summary" (1)

获取文件摘要：

"Tabular" (2)

从文件中获取数据作为 Tabular 对象：

仅导入选定的行：

仅导入选定的列：

导入选项 (2)

IncludeMetaInformation (1)

默认情况下，文件中所存储的所有元数据都会被导入并嵌入到 Tabular 对象中：

不导入元数据：

"Schema" (1)

将 Tabular 对象导出到 Parquet 文件：

默认情况下，导入 Tabular 或 Dataset 对象时，使用存储在文件中的列标签及其类型：

使用 "Schema" 选项指定列标签和类型：

导出选项 (4)

"Compression" (2)

默认情况下禁用压缩：

对比支持的压缩方法：

CompressionLevel (2)

默认情况下，CompressionLevel 使用 Automatic 值. 对于不同的压缩方法，它对应不同的默认值：

对每种方法使用最大压缩：

Top

更多学习资源

技术支持

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

成人教育计划

青少年教育计划

欢迎阅读

Parquet (.parquet)

背景

导入与导出

导入元素

选项

范例

基本范例 (3)

范围 (3)

导入 (3)

导入元素 (14)

"ColumnCount" (1)

"ColumnLabels" (1)

"ColumnTypes" (1)

"Data" (2)

"Dataset" (2)

"Dimensions" (1)

"MetaInformation" (1)

"RowCount" (1)

"Schema" (1)

"Summary" (1)

"Tabular" (2)

导入选项 (2)

IncludeMetaInformation (1)

"Schema" (1)

导出选项 (4)

"Compression" (2)

CompressionLevel (2)

	"Elements"	此文件中可用的元素和选项列表
	"Summary"	文件摘要
	"Rules"	所有可用元素的规则列表

	n	第 n 行或列
	-n	从最后开始计数
	n;;m	从 n 到 m
	n;;m;;s	从 n 到 m，步长为 s
	{n₁,n₂,…}	特定行或列 n_i

	"ColumnCount"	文件中存储的列数
	"Dimensions"	数据维度
	"RowCount"	文件中存储的行数
	"MetaInformation"	元数据

	IncludeMetaInformation	All	要导入的元数据类型
	"Schema"	Automatic	用于构建 Tabular 对象的架构

Parquet (.parquet)

背景

导入与导出

导入元素

选项

范例

基本范例 (3)

范围 (3)

导入 (3)

导入元素 (14)

"ColumnCount" (1)

"ColumnLabels" (1)

"ColumnTypes" (1)

"Data" (2)

"Dataset" (2)

"Dimensions" (1)

"MetaInformation" (1)

"RowCount" (1)

"Schema" (1)

"Summary" (1)

"Tabular" (2)

导入选项 (2)

IncludeMetaInformation (1)

"Schema" (1)

导出选项 (4)

"Compression" (2)

CompressionLevel (2)

参见

相关指南

历史