多変量統計パッケージ

このパッケージには,多変量正規分布から派生した多変量データおよび分布の記述統計量が含まれている.分布は記号形式の name[param1,param2,]で表される.

多変量記述統計

パッケージをロードする.
次は二変量データである(米国Forest Products Laboratoryのご厚意による).
変数は特定のクラスの木材サンプルの硬さと曲げ強度を表す.

多変量データの位置統計

座標別の平均は,すべての変量を同時に考慮したときに得られる平均と同じである.残念ながら座標別の定義は,中央値,最頻値,分位数など他の位置測定については,多変量データを最適に一般化したものとはいえない.このセクションでは多変量データの場合に特殊な定義を必要とするさまざまな位置測定を説明する.

平均には,外れ値や多変量正規性からの逸脱に敏感であるという不利な点があるということはよく知られている.中央値はそのような偏差の影響を受けにくい.多変量での中央値の定義は,シンプレックス体積の和の最小化や凸包の削除など,幾何的な考察を利用する場合が多い.

SimplexMedian[data] 次元のシンプレックスの体積の和を最小化する ベクトルに等しい多変量データの中央値.このシンプレックスは,ベクトルがデータ行列の 行すべての可能な組合せで形成されるものである
MultivariateTrimmedMean[data,f]データの f 割が,最も外側の点から削除されるときに残ったデータの平均

多変量位置統計

SimplexMedianは, 次元シンプレックスを形成するための 個の点のすべての可能な組合せを合せたときに,最小の総シンプレックス体積となるような 次元点を与える.既出の木材データの場合は,なので,のシンプレックスを考慮に入れなければならない.SimplexMedianはアフィン的に同変の推定量である.

これで,このベクトルを頂点として構成できるすべてのシンプレックスの体積の和を最小化する.
Ellipsoid[{x1,,xp},{r1,,rp},{d1,,dp}]
{x1,,xp}を中心とした半径{r1,,rp}p 次元楕円.ここで ri は方向 di の半径である
Polytope[{{x11,,x1p},,{xm1,,xmp}},conn]
頂点が m 個の p 次元多面体.ここで頂点の接続性は conn で指定される

幾何プリミティブ

一変量の標本で 分位数とは,これより下に標本の 割があることを意味する.多変量標本および潜在的母集団の位置統計の関連推定値の場合は,標本の 割が存在する位置推定量を中心として 分位数をその場所とすることができる.このため,位置推定量と分位数の位置がどのように定義されるかにより,多変量分位数の定義は異なったものとなる.例えば,位置は平均を中心とする楕円でもあり得るし,中央値を中心とするポリトープでもあり得る.

このパッケージは,多次元の楕円や多面体を表すための幾何プリミティブを定義している.EllipsoidPolytopeの各プリミティブは p=2のときはGraphicsShowを使うことでプロットが可能である.位置統計のEllipsoidQuantileEllipsoidQuartilesの結果はEllipsoidで表される.位置統計PolytopeQuantilePolytopeQuartilesの結果はPolytopeで表される.

半軸の方向を指定するEllipsoidの第3引数は,半軸が座標軸上にある場合は自動的に省かれる.半径は必要に応じて並べ替えられる.

半軸が座標軸上にある3D楕円体である.
EllipsoidQuantile[data,q]p 変量データの q 分位数の p-1次元配置.ここでデータは平均を中心とする楕円形を使って整列される
EllipsoidQuartiles[data]p 変量データの四分位数の p-1次元位置.ここでデータは平均を中心とする楕円形を使って整列される
PolytopeQuantile[data,q]p 変量データの第 q 分位数の p-1次元位置.ここでデータは中央値を中心とする凸包を使って整列される
PolytopeQuartiles[data]p 変量データの四分位数の p-1次元位置.ここでデータは中央値を中心とする凸包を使って整列される

多変量位置統計

これは,硬度変数と強度変数の最小・最大値を与える.
楕円対称を仮定した場合の,四分位曲線のプロットである.
データの凸包間の線形補間によって求められた,四分位曲線のプロットである.

多変量データの分散測定方法

p 変量データの位置測定には p 個の要素があるが,p 変量データの分散測定は行列値かベクトル値かスカラー値となる.このセクションでは,スカラー値の多変量分散測定について解説する.

GeneralizedVariance[data]共分散行列の行列式
TotalVariation[data]共分散行列のトレース
MultivariateMeanDeviation[data]p 変量の平均と p 変量データとの間のユークリッド距離のスカラー平均
MultivariateMedianDeviation[data]p 変量の中央値と p 変量データとの間のユークリッド距離のスカラー中央値

スカラー値の多変量分散統計

これらのスカラー値の分散測定法では,p 個の変量をすべて同時に考慮する.GeneralizedVarianceはデータの主成分の分散の積をあたえ,TotalVariationはデータの主成分の分散の和を与える.MultivariateMedianDeviationは座標全体の中央値Medianを選ぶためのオプションMedianMethod,総距離を最小化する中央値SpatialMedian,総シンプレックス体積を最小化する中央値SimplexMedian,削除された凸包の中央値ConvexHullMedianを取る.

GeneralizedVarianceは主成分の分散の積を与える.
TotalVariationはデータの主成分の分散の和を与える.

多変量形状統計

多変量形状統計はデータの変数すべてを同時に考慮する.MultivariateSkewnessMultivariateKurtosisの両関数は,それぞれ楕円対称性と多変量正規形状の検定に利用できる.

MultivariateSkewness[data]多変量歪度係数,.ここでは母共分散の不偏推定値である
MultivariateKurtosis[data]多変量尖度係数,.ここでは母共分散の最尤推定値である

多変量形状統計

dataの歪度に対する単独の値を与える.

0に近いMultivariateSkewnessの値は,近似的な楕円対称を意味する.標本の大きさ に近付くにつれて,の分布(ここで は多変量歪度)は に近付く.

5%のレベルでは,楕円対称の仮説は棄却されない.

(ここで は変数の数)付近のMultivariateKurtosisの値は,多正規性を意味する.標本の大きさ に近付くにつれて, の分布(ここで は多変量尖度)は標準正規分布に近付く.

三変数の尖度に対する単独の値を与える.
有意水準5%では,多正規性の仮説は棄却されない.

二変量形状統計は,木材データが2変数の正規分布より有意に偏っているという証明にはならない.

多変量正規分布に関連した分布

多変量データ解析に最もよく使用される確率分布は,多変量正規(多変数ガウス)分布から導出されるものである.これらの分布の多くがWolfram言語カーネルに組み込まれている.このパッケージには,ウィッシャート(Wishart)分布と二次形式の分布が含まれている.ウィッシャート分布は乱数行列に対するものである.二次形式の分布は多変量正規分布から派出した一変量分布である.

分布は,記号形式 name[param1,param2,]で表される.パラメータが多いときはリストに編成される.これはQuadraticFormDistributionの場合も同様である.統計分布の特性を与えるMeanのような関数は,引数として分布の記号表現を取る.

WishartDistribution[Σ,m]スケール行列がΣで自由度が m のウィッシャート分布
QuadraticFormDistribution[{A,b,c},{μ,Σ}]正規大変量分布の二次形式.ここで Abc は二次形式 zAz+bz+c のパラメータであり,z は平均ベクトルが μ で共分散行列がΣの多変量正規分布である

多変量正規分布から派生する分布

平均ベクトルが で共分散行列がである 変量の多変量正規分布と表される.(ここで , , )の分布が は零ベクトル)で, 行ベクトル からなる × のデータ行列を表すなら,× の行列 はスケール行列がで自由度のパラメータが ウィッシャート分布 を持つ.ウィッシャート分布は多変量正規分布の標本共分散行列を示すときに最もよく使われる.

分布が の多変量正規ベクトル 二次形式 で与えられる.ここで × の対称行列, ベクトル, はスカラーである.この一変量分布は多変量正規分布の標本を判別分析する場合に便利である.

PDF[dist,x]x における確率密度関数.ここで xdist によってスカラー値,ベクトル値,行列値のどれかに決まる
CDF[dist,x]x における累積分布関数
Mean[dist]平均
Variance[dist]分散
StandardDeviation[dist]標準偏差
Skewness[dist]歪度係数
Kurtosis[dist]尖度係数
CharacteristicFunction[dist,t]特性関数 .ここで tdist によってスカラー値,ベクトル値,行列値のいずれかに決まる
Expectation[f,dist]指定された分布に関する純関数 f の期待値
Expectation[f(x),xdist]指定された分布に関する x の関数 f の期待値.ここで xdist によってスカラー値,べクトル値,行列値のいずれかに決まる
RandomVariate[dist]指定された分布の擬似乱数,擬似べクトル,または擬似行列
RandomVariate[dist,dims]次元 dims で指定された分布の要素を持つ擬似乱数配列

多変量分布に適用できる一変量分布の関数

一般にPDF[dist,x]x が数値,ベクトル,行列のいずれかの場合には x における密度を評価するが,それ以外の場合は関数は記号形式のままである.同様に,CDF[dist,x]は指定された分布の累積分布を,CharacteristicFunction[dist,t]は特性関数を与える.

上記の式の明確な形式が利用できないこともある.例えば,PDF[QuadraticFormDistribution[{A,b,c},{μ,Σ}],x]は評価しないが,領域の下限の支点(正の有限の二次形式の場合)付近のPDFSeries展開は評価する.

二次形式の分布の密度は通常閉形式で表されないが,分布の下部サポート点付近の級数展開により近似することができる.QuadraticFormDistributionPDFに対する級数展開は,Seriesを使って得ることができる.

二次形式のPDFの級数展開がプロットできる.
EllipsoidProbability[dist,ellipse]指定された領域内の累積確率
EllipsoidQuantile[dist,q]q 分位数
Covariance[dist]指定された分布の共分散行列
Correlation[dist]指定された分布の相関行列
MultivariateSkewness[dist]多変量歪度係数
MultivariateKurtosis[dist]多変量尖度係数

多変量分布の関数

多変量の場合,乱数ベクトル(あるいは乱数行列)の値の多くは単独の確率値に対応しているため,QuantileCDF関数の逆関数として定義するのは難しい.EllipsoidQuantileおよびその逆関数のEllipsoidProbabilityは,楕円分布MultinormalDistributionおよびMultivariateTDistributionについて計算することができる.楕円分布は定数確率等高線を定義しなければならない.

平均値を中心に,ndistの確率.5を囲む平均を中心とする楕円を与える.
楕円内の分布の確率を与える.
となるに従って,多変量の 楕円分位は,多変量分布の分位に近付く.