多変量統計パッケージ
このパッケージには,多変量正規分布から派生した多変量データおよび分布の記述統計量が含まれている.分布は記号形式の name[param1,param2,…]で表される.
多変量記述統計
多変量データの位置統計
座標別の平均は,すべての変量を同時に考慮したときに得られる平均と同じである.残念ながら座標別の定義は,中央値,最頻値,分位数など他の位置測定については,多変量データを最適に一般化したものとはいえない.このセクションでは多変量データの場合に特殊な定義を必要とするさまざまな位置測定を説明する.
平均には,外れ値や多変量正規性からの逸脱に敏感であるという不利な点があるということはよく知られている.中央値はそのような偏差の影響を受けにくい.多変量での中央値の定義は,シンプレックス体積の和の最小化や凸包の削除など,幾何的な考察を利用する場合が多い.
SimplexMedian[data] | 次元のシンプレックスの体積の和を最小化する ベクトルに等しい多変量データの中央値.このシンプレックスは,ベクトルがデータ行列の 行すべての可能な組合せで形成されるものである |
MultivariateTrimmedMean[data,f] | データの f 割が,最も外側の点から削除されるときに残ったデータの平均 |
SimplexMedianは, 次元シンプレックスを形成するための 個の点のすべての可能な組合せを合せたときに,最小の総シンプレックス体積となるような 次元点を与える.既出の木材データの場合は,で なので,のシンプレックスを考慮に入れなければならない.SimplexMedianはアフィン的に同変の推定量である.
Ellipsoid[{x1,…,xp},{r1,…,rp},{d1,…,dp}] | |
{x1,…,xp}を中心とした半径{r1,…,rp}の p 次元楕円.ここで ri は方向 di の半径である | |
Polytope[{{x11,…,x1p},…,{xm1,…,xmp}},conn] | |
頂点が m 個の p 次元多面体.ここで頂点の接続性は conn で指定される |
一変量の標本で 分位数とは,これより下に標本の 割があることを意味する.多変量標本および潜在的母集団の位置統計の関連推定値の場合は,標本の 割が存在する位置推定量を中心として 分位数をその場所とすることができる.このため,位置推定量と分位数の位置がどのように定義されるかにより,多変量分位数の定義は異なったものとなる.例えば,位置は平均を中心とする楕円でもあり得るし,中央値を中心とするポリトープでもあり得る.
このパッケージは,多次元の楕円や多面体を表すための幾何プリミティブを定義している.EllipsoidとPolytopeの各プリミティブは p=2のときはGraphicsとShowを使うことでプロットが可能である.位置統計のEllipsoidQuantileとEllipsoidQuartilesの結果はEllipsoidで表される.位置統計PolytopeQuantileとPolytopeQuartilesの結果はPolytopeで表される.
半軸の方向を指定するEllipsoidの第3引数は,半軸が座標軸上にある場合は自動的に省かれる.半径は必要に応じて並べ替えられる.
EllipsoidQuantile[data,q] | p 変量データの q 分位数の p-1次元配置.ここでデータは平均を中心とする楕円形を使って整列される |
EllipsoidQuartiles[data] | p 変量データの四分位数の p-1次元位置.ここでデータは平均を中心とする楕円形を使って整列される |
PolytopeQuantile[data,q] | p 変量データの第 q 分位数の p-1次元位置.ここでデータは中央値を中心とする凸包を使って整列される |
PolytopeQuartiles[data] | p 変量データの四分位数の p-1次元位置.ここでデータは中央値を中心とする凸包を使って整列される |
多変量データの分散測定方法
p 変量データの位置測定には p 個の要素があるが,p 変量データの分散測定は行列値かベクトル値かスカラー値となる.このセクションでは,スカラー値の多変量分散測定について解説する.
GeneralizedVariance[data] | 共分散行列の行列式 |
TotalVariation[data] | 共分散行列のトレース |
MultivariateMeanDeviation[data] | p 変量の平均と p 変量データとの間のユークリッド距離のスカラー平均 |
MultivariateMedianDeviation[data] | p 変量の中央値と p 変量データとの間のユークリッド距離のスカラー中央値 |
これらのスカラー値の分散測定法では,p 個の変量をすべて同時に考慮する.GeneralizedVarianceはデータの主成分の分散の積をあたえ,TotalVariationはデータの主成分の分散の和を与える.MultivariateMedianDeviationは座標全体の中央値Medianを選ぶためのオプションMedianMethod,総距離を最小化する中央値SpatialMedian,総シンプレックス体積を最小化する中央値SimplexMedian,削除された凸包の中央値ConvexHullMedianを取る.
多変量形状統計
多変量形状統計はデータの変数すべてを同時に考慮する.MultivariateSkewnessとMultivariateKurtosisの両関数は,それぞれ楕円対称性と多変量正規形状の検定に利用できる.
MultivariateSkewness[data] | 多変量歪度係数,.ここでは母共分散の不偏推定値である |
MultivariateKurtosis[data] | 多変量尖度係数,.ここでは母共分散の最尤推定値である |
0に近いMultivariateSkewnessの値は,近似的な楕円対称を意味する.標本の大きさ がに近付くにつれて,の分布(ここで は多変量歪度)は ,に近付く.
(ここで は変数の数)付近のMultivariateKurtosisの値は,多正規性を意味する.標本の大きさ がに近付くにつれて, の分布(ここで は多変量尖度)は標準正規分布に近付く.
二変量形状統計は,木材データが2変数の正規分布より有意に偏っているという証明にはならない.
多変量正規分布に関連した分布
多変量データ解析に最もよく使用される確率分布は,多変量正規(多変数ガウス)分布から導出されるものである.これらの分布の多くがWolfram言語カーネルに組み込まれている.このパッケージには,ウィッシャート(Wishart)分布と二次形式の分布が含まれている.ウィッシャート分布は乱数行列に対するものである.二次形式の分布は多変量正規分布から派出した一変量分布である.
分布は,記号形式 name[param1,param2,…]で表される.パラメータが多いときはリストに編成される.これはQuadraticFormDistributionの場合も同様である.統計分布の特性を与えるMeanのような関数は,引数として分布の記号表現を取る.
WishartDistribution[Σ,m] | スケール行列がΣで自由度が m のウィッシャート分布 |
QuadraticFormDistribution[{A,b,c},{μ,Σ}] | 正規大変量分布の二次形式.ここで A,b,c は二次形式 z′Az+b′z+c のパラメータであり,z は平均ベクトルが μ で共分散行列がΣの多変量正規分布である |
平均ベクトルが で共分散行列がである 変量の多変量正規分布は と表される.(ここで , …, )の分布が (は零ベクトル)で, が 行ベクトル からなる × のデータ行列を表すなら,× の行列 はスケール行列がで自由度のパラメータが のウィッシャート分布 を持つ.ウィッシャート分布は多変量正規分布の標本共分散行列を示すときに最もよく使われる.
分布が の多変量正規ベクトル の二次形式は で与えられる.ここで は × の対称行列, は ベクトル, はスカラーである.この一変量分布は多変量正規分布の標本を判別分析する場合に便利である.
PDF[dist,x] | x における確率密度関数.ここで x は dist によってスカラー値,ベクトル値,行列値のどれかに決まる |
CDF[dist,x] | x における累積分布関数 |
Mean[dist] | 平均 |
Variance[dist] | 分散 |
StandardDeviation[dist] | 標準偏差 |
Skewness[dist] | 歪度係数 |
Kurtosis[dist] | 尖度係数 |
CharacteristicFunction[dist,t] | 特性関数 .ここで t は dist によってスカラー値,ベクトル値,行列値のいずれかに決まる |
Expectation[f,dist] | 指定された分布に関する純関数 f の期待値 |
Expectation[f(x),xdist] | 指定された分布に関する x の関数 f の期待値.ここで x は dist によってスカラー値,べクトル値,行列値のいずれかに決まる |
RandomVariate[dist] | 指定された分布の擬似乱数,擬似べクトル,または擬似行列 |
RandomVariate[dist,dims] | 次元 dims で指定された分布の要素を持つ擬似乱数配列 |
一般にPDF[dist,x]は x が数値,ベクトル,行列のいずれかの場合には x における密度を評価するが,それ以外の場合は関数は記号形式のままである.同様に,CDF[dist,x]は指定された分布の累積分布を,CharacteristicFunction[dist,t]は特性関数を与える.
上記の式の明確な形式が利用できないこともある.例えば,PDF[QuadraticFormDistribution[{A,b,c},{μ,Σ}],x]は評価しないが,領域の下限の支点(正の有限の二次形式の場合)付近のPDFのSeries展開は評価する.
二次形式の分布の密度は通常閉形式で表されないが,分布の下部サポート点付近の級数展開により近似することができる.QuadraticFormDistributionのPDFに対する級数展開は,Seriesを使って得ることができる.
EllipsoidProbability[dist,ellipse] | 指定された領域内の累積確率 |
EllipsoidQuantile[dist,q] | q 分位数 |
Covariance[dist] | 指定された分布の共分散行列 |
Correlation[dist] | 指定された分布の相関行列 |
MultivariateSkewness[dist] | 多変量歪度係数 |
MultivariateKurtosis[dist] | 多変量尖度係数 |
多変量の場合,乱数ベクトル(あるいは乱数行列)の値の多くは単独の確率値に対応しているため,QuantileをCDF関数の逆関数として定義するのは難しい.EllipsoidQuantileおよびその逆関数のEllipsoidProbabilityは,楕円分布MultinormalDistributionおよびMultivariateTDistributionについて計算することができる.楕円分布は定数確率等高線を定義しなければならない.