ORC (.orc)
予備知識
-
- 効率的で汎用的な列指向のデータ形式.
- Apache Software Foundationによって開発された.
- ORCはOptimized Row Columnarの頭字語である.
- バイナリファイル形式.
- 複数の圧縮方式をサポートする.
ImportとExport
- Import["file.orc"]はORCファイルをTabularオブジェクトとしてインポートする.
- Import["file.orc",elem] は指定の要素をインポートする.
- Import["file.orc",{elem,subelem1,…}] は部分要素subelemiをインポートする.これは部分的なデータインポートに役立つ.
- インポート形式は Import["file","ORC"]またはImport["file",{"ORC",elem,…}]で指定できる.
- Export["file.orc",expr]はTabularオブジェクトをORCファイル形式にエキスポートする.
- サポートする式exprには以下を含む:
-
{v1,v2,…} 単一列のデータ {{v11,v12,…},{v21,v22,…},…} 行のリストのデータ array SparseArray,QuantityArrayなどの配列 dataset DatasetオブジェクトまたはTabularオブジェクト - 一般的な情報は,以下の関数ページを参照のこと.
-
Import, Export ファイルからインポートする,あるいはファイルへエキスポートする CloudImport, CloudExport クラウドオブジェクトからインポートする,あるいはクラウドオブジェクトへエキスポートする ImportString, ExportString 文字列からインポートする,あるいは文字列へエキスポートする ImportByteArray, ExportByteArray バイト配列からインポートする,あるいはバイト配列へエキスポートする
Import要素
- 一般的なImport要素:
-
"Elements" ファイル中の有効な要素とオプションのリスト "Summary" ファイルの概要 "Rules" 使用可能なすべての要素の規則のリスト - データ表現要素:
-
"Data" 2次元配列 "Dataset" Datasetとしての表データ "Tabular" Tabularオブジェクト - デフォルトでは,Import は "Tabular" 要素を使用する.
- "Tabular"要素の部分的なインポートにおける部分要素は{"Tabular",rows,cols}という形式で行と列を指定することができる.ここで,rows と cols は以下のいずれでもよい:
-
n n 番目の行または列 -n 最後から数える n;;m n から m まで n;;m;;s n から m までステップ s で {n1,n2,…} 特定の行または列 ni - データ記述子要素:
-
"ColumnLabels" 列の名前 "ColumnTypes" 各列のデータ型の連想 "Schema" TabularSchemaオブジェクト - メタデータ要素:
-
"ColumnCount" ファイルに保存されている列の数 "Dimensions" データ次数 "RowCount" ファイルに保存されている行の数 "MetaInformation" メタデータ
オプション
- 一般的なImport オプション:
-
IncludeMetaInformation All インポートするメタデータ型 "Schema" Automatic Tabularオブジェクトの構築に使用されるスキーマ - 一般的なExportオプション:
-
"Compression" None 圧縮方法 "CompressionStrategy" "Speed" 圧縮の方策 - "Compression"の設定は以下をサポートする:
-
None 圧縮なし "LZ4" LZ4圧縮 "GZIP" GZIP Hadoop圧縮 "Snappy" Snappy圧縮 "ZSTD" ZSTD圧縮 - "CompressionStategy"には以下の設定がサポートされている:
-
"Size" ファイルサイズを最適化する "Speed" エキスポートの速度を最適化する