Parquet (.parquet)

Import と Export はParquetバージョン2.6をサポートしている．

予備知識

- 登録されているMIME タイプ: application/vnd.apache.parquet
- 効率的で汎用的な列指向のデータ形式．
- Apache Software Foundationによって開発された．
- バイナリファイル形式．
- 複数の圧縮方式をサポートしている．

ImportとExport

Import["file.parquet"] はParquetファイルをTabularオブジェクトとしてインポートする．
Import["file.parquet",elem]は指定の要素をインポートする．
Import["file.parquet",{elem,subelem₁,…}] は部分要素subelem_iをインポートする．これは部分的なデータインポートに役立つ．
インポート形式は Import["file","Parquet"] または Import["file",{"Parquet",elem,…}]で指定できる．
Export["file.parquet",expr] exprからParquetファイルを生成する．
サポートする式 expr は以下を含む：

	{v₁,v₂,…}	データ単一列
	{{v₁₁,v₁₂,…},{v₂₁,v₂₂,…},…}	データ行のリスト
	array	SparseArray，QuantityArrayなどの配列
	dataset	Dataset オブジェクトまたはTabularオブジェクト

一般的な情報は，以下の関数ページを参照のこと．

	Import, Export	ファイルからインポートする，あるいはファイルへエキスポートする
	CloudImport, CloudExport	クラウドオブジェクトからインポートする，あるいはクラウドオブジェクトへエキスポートする
	ImportString, ExportString	文字列からインポートする，あるいは文字列へエキスポートする
	ImportByteArray, ExportByteArray	バイト配列からインポートする，あるいはバイト配列へエキスポートする

Import要素

一般的なImport要素：

	"Elements"	ファイル中の有効な要素とオプションのリスト
	"Summary"	ファイルの概要
	"Rules"	使用可能なすべての要素の規則のリスト

データ表現要素：
"Data" 2次元配列

"Dataset" Datasetとしての表データ

"Tabular" Tabularオブジェクト
デフォルトでは，Importは"Tabular" 要素を使用する．
"Tabular"要素の部分的なインポートにおける部分要素は{"Tabular",rows,cols}という形式で行と列を指定することができる．ここで，rows と cols は以下のいずれでもよい：

	n	n 番目の行または列
	-n	最後から数える
	n;;m	n から m まで
	n;;m;;s	n から m までステップ s で
	{n₁,n₂,…}	特定の行または列 n_i

データ記述子要素：
"ColumnLabels" 列の名前

"ColumnTypes" 各列のデータ型の連想

"Schema" TabularSchemaオブジェクト
メタデータ要素：

	"ColumnCount"	ファイルに保存されている列の数
	"Dimensions"	データ次数
	"RowCount"	ファイルに保存されている行の数
	"MetaInformation"	メタデータ

オプション

一般的なImport オプション：

	IncludeMetaInformation	All	インポートするためのメタデータ型
	"Schema"	Automatic	Tabularオブジェクトの構築に使用するスキーマ

一般的なExportオプション：
"Compression" None 圧縮方法

CompressionLevel Automatic 圧縮のレベル
"Compression"の設定は以下をサポートする：

	None	圧縮なし
	"Brotli"	Brotli 圧縮
	"GZIP"	GZIP 圧縮
	"LZ4"	LZ4 圧縮
	"LZ4Hadoop"	LZ4 Hadoop 圧縮
	"Snappy"	Snappy 圧縮
	"ZSTD"	ZSTD 圧縮

例題

すべて開くすべて閉じる

例 (3)

ParquetファイルからTabularオブジェクトをインポートする：

ファイルの概要をインポートする：

TabularオブジェクトをParquetにエキスポートする：

スコープ (3)

Import (3)

ファイルで使用可能なすべての要素を見る：

デフォルトでは，Tabularオブジェクトを返す：

列タイプをインポートする：

Import要素 (14)

"ColumnCount" (1)

列数を得る：

"ColumnLabels" (1)

列の名前を読む：

"ColumnTypes" (1)

列のタイプをインポートする：

"Data" (2)

ファイルからデータを取得する：

選択した行のみをインポートする：

選択した列のみをインポートする：

"Dataset" (2)

Datasetとしてデータを取得する：

選択した行のみをインポートする：

選択した列のみをインポートする：

"Dimensions" (1)

データの次数をインポートする：

"MetaInformation" (1)

メタデータをインポートする：

"RowCount" (1)

行数を得る：

"Schema" (1)

TabularSchemaオブジェクトを取得する：

"Summary" (1)

ファイルの概要を得る：

"Tabular" (2)

ファイルからTabularオブジェクトとしてデータを取得する：

選択した行のみをインポートする：

選択した列んのみをインポートする：

Importオプション (2)

IncludeMetaInformation (1)

デフォルトでは，ファイルに保存されたすべてのメタデータがインポートされてTabular オブジェクトに埋め込まれる：

メタデータをインポートしない：

"Schema" (1)

TabularオブジェクトをParquetファイルにエキスポートする：

デフォルトでは， TabularオブジェクトまたはDatasetオブジェクトがインポートされたとき，ファイルに保存されている列ラベルとその型が使用される：

"Schema" オプションを使って，列ラベルと型を指定する：

Exportオプション (4)

"Compression" (2)

デフォルトでは圧縮されない：

サポートしている圧縮手法を比較する：

CompressionLevel (2)

CompressionLevelのデフォルト値はAutomaticであり，圧縮方法ごとに異なるデフォルト値に対応する．

それぞれの手法で最大の圧縮を使用する：

トップへ

	"Data"	2次元配列
	"Dataset"	Datasetとしての表データ
	"Tabular"	Tabularオブジェクト

	"ColumnLabels"	列の名前
	"ColumnTypes"	各列のデータ型の連想
	"Schema"	TabularSchemaオブジェクト

	"Compression"	None	圧縮方法
	CompressionLevel	Automatic	圧縮のレベル

Parquet (.parquet)

予備知識

ImportとExport

Import要素

オプション

例題

例 (3)

スコープ (3)

Import (3)

Import要素 (14)

"ColumnCount" (1)

"ColumnLabels" (1)

"ColumnTypes" (1)

"Data" (2)

"Dataset" (2)

"Dimensions" (1)

"MetaInformation" (1)

"RowCount" (1)

"Schema" (1)

"Summary" (1)

"Tabular" (2)

Importオプション (2)

IncludeMetaInformation (1)

"Schema" (1)

Exportオプション (4)

"Compression" (2)

CompressionLevel (2)

関連項目

関連するガイド

履歴