ArrowDataset
予備知識
-
- 効率的な複数ファイルの列指向データ形式.
- Apache Software Foundationによって開発された.
ImportとExport
- Import["dir","ArrowDataset"]はTabular オブジェクトとしてArrowDatasetディレクトリをインポートする.
- Import["dir",{"ArrowDataset",elem,…}]は指定された要素をインポートする.
- Import["dir",{"ArrowDataset",elem,subelem1,…}]はサブ要素subelemiをインポートする.これは,部分的なデータのインポートに役に立つ.
- Export["dir",expr,"ArrowDataset"]はexprからArrowDatasetディレクトリを作成する.
- サポートされる exprの表現には以下が含まれる:
-
{v1,v2,…} 1列のデータ {{v11,v12,…},{v21,v22,…},…} データの行のリスト array SparseArray,QuantityArrayなどのような配列 dataset DatasetまたはTabularオブジェクト - 一般的な情報は,以下の関数ページを参照のこと.
-
Import, Export ファイルからインポートする,あるいはファイルへエキスポートする CloudImport, CloudExport クラウドオブジェクトからインポートする,あるいはクラウドオブジェクトへエキスポートする ImportString, ExportString 文字列からインポートする,あるいは文字列へエキスポートする ImportByteArray, ExportByteArray バイト配列からインポートする,あるいはバイト配列へエキスポートする
Import要素
- 一般的なImport要素:
-
"Elements" ファイル中の有効な要素とオプションのリスト "Summary" - ファイルの概要
"Rules" すべての可能な要素の規則のリスト - データ表現要素:
-
"Data" 2次元配列 "Dataset" Datasetとしての表データ "Tabular" Tabularオブジェクト - 追加要素は"Format"オプションに応じて指定することができる.要素の詳細な記述については,"Parquet","ArrowIPC","ORC","CSV", "TSV" を参照のこと.
- デフォルトで,Import は"Tabular"要素を使用する.
- "Tabular"要素の部分データインポートの部分要素は, {"Tabular",rows,cols}の形式で行と列の仕様を取ることができる.ここで,rows と cols は次のいずれかになる:
-
n n番目の行または列 -n 末尾からn番目 n;;m n 番目から m番目まで n;;m;;s n 番目から m 番目までの要素をステップ sで {n1,n2,…} 指定された行または列の ni番目 - データ記述要素:
-
"ColumnLabels" 列の名前 "ColumnTypes" 各列のデータ型の連想 "Schema" TabularSchemaオブジェクト
オプション
- 一般的なImportオプション:
-
"Format" Automatic 使用する基礎の形式 "Partitioning" None 分割の方式 - 一般的なExportオプション:
-
"Format" "Parquet" 使用する基礎の形式 "MaxPartitions" 4096 最大の分割数 "MaxRowsPerFile" Infinity ファイルあたり最大の行数 "NameTemplate" "part{i}" ファイル名のテンプレート "Partitioning" "Hive" 分割スキーム "SplitColumns" Automatic 分割に使用する列 - Import は"Partitioning"に以下の設定をサポートする:
-
None 分割がない "Hive" Hiveパーティション {col1,col2,…} パーティションキーを使って分割するディレクトリ {"Directory", {col1,col2,…}} パーティションキーを使って分割するディレクトリ - Export は"Partitioning"に以下の設定をサポートする:
-
"Directory" ディレクトリの分割 "Hive" Hiveパーティション - 追加要素は"Format"オプションに応じて指定することができる.オプションの詳細な記述については,"Parquet","ArrowIPC","ORC","CSV", "TSV" を参照のこと.
例題
すべて開くすべて閉じるスコープ (3)
Import (3)
Import要素 (14)
Importオプション (2)
"Format" (1)
"Partitioning" (1)
デフォルトでは"Partitioning"Noneが使用される.分割に使用される列はインポートされないことに注意:
Exportオプション (6)
"MaxPartitions" (1)
"SplitColumns" (1)
考えられる問題 (1)
Exportには"SplitColumns" オプションが必要である: