表形式データのクリーニング
データのクリーニングは,データを準備し,追加で処理するために障害を取り除く過程である.データのクリーニングには,データサイエンスプロジェクトにおける大量のリソースの使用を必要とすることが多いので,さまざまなクリーニングタスクに対して複数のツールを提供することにより,クリーニングをルーティンにし,より自動化することができる. Wolfram言語は,データのクリーニングツールの豊かなコレクションを提供する.列を分割あるいは結合することから,列の値と名前の間で変換することまで,データの構造を変更するための構造のクリーニングツールがある.また,追加の処理を行う際に妨げとなる欠落値や外れ値を処理するための値のクリーニングツールもある.
列のキー
ColumnKeys — 列のキーを得る
RenameColumns — 列のキーを設定する
列の型
ColumnTypes — 列の型を得る
CastColumns — 列の型を設定する
列の再編成
TransformColumns — 列を分割したり結合したりする
表形式データの値の再構築
PivotToColumns — 1つの列の値を複数の列に広げる
PivotFromColumns — 複数の列からの値を1つにまとめる
欠落値の処理
TransformMissing — 欠落値をどのように処理するか,値をどのように帰属させるか等
MissingFallback ▪ MissingValuePattern ▪ Missing
極値の処理 »
TransformAnomalies — 極値をどのように処理するか,値をどのように切り取るか等
FindAnomalies ▪ DeleteAnomalies ▪ Clip ▪ ...