並列計算

Wolframシステムコンパイラは計算を並列で行うことができる.並列計算はコンパイルされた関数をデータのリストに並列に縫い込むことで行う.まず,Listable属性のある関数をコンパイルする.

入力がコンパイルされた関数のタイプ指定と一致する場合は通常の動作をする.次の例題では,実数入力がコンパイルされた関数のタイプ指定と一致するので関数が実行される.

ここでは,コンパイルされた関数がリスト入力を受け取る.これは入力よりも高い階級なので,入力に縫い込まれる.

リスト可能なコンパイルされた関数も並列で実行することができる.これはParallelizationオプションをTrueにして行う.

入力がコンパイル関数のタイプ指定と一致する場合,その入力は正常に働く.

次では,コンパイルされた関数が入力のリストを受け取っている.これは,コンパイルされた関数が縫い込まれた入力よりも階数が高いためである.これもまた並列で実行される.

計算の高速化

並列化を使う主な理由は計算の高速化である.これは,多くの場合うまくいく.

次は,連続的に実行される関数を作り実行する.

次は,上と等価の並列で実行される関数をコンパイルする.筆者のマシン上では速度が2倍になる.

コンパイルされた関数を実行する並列スレッドのデフォルト数は$ProcessorCountの設定値である.

コンパイルのターゲット

CompilationTargetをCにすると並列にコンパイルされた関数をさらに高速化することができる.

外部呼出し

並列計算で重要な問題に同じことをしようとしている2つの異なるスレッドをどのように扱うかがある.コンパイルされた関数を使った並列計算の場合これは自動的に処理される.

次の関数の定義の増分カウンタ.

この並列にコンパイルされた関数は外部関数を呼び出す.

次は入力データのリスト上でコンパイルされた関数を並列に実行する.

カウンタは正しい回数分増分する.

事実,並列実行されているコンパイルされた関数が外部呼出しを行うときは.実際に呼出しを行うのが1度に1つのスレッドだけになるように常に同期されたプリミティブによって行われる.これは,並列にコンパイルされた関数が多くの外部呼出しを行う場合は,並列による高速化がうまく行かないことを示している.

乱数

モンテカルロ法等の乱数を使う計算の多くは,並列で行うと計算を速めることができる.しかし,乱数を速く効率的に並列で使用するには,独立で作動し,他のスレッドで生成される数とは統計的に独立している乱数を生成する別々の実行スレッドに生成器がなくてはならない.このため,Wolfram言語がデフォルトで並列計算に使用する乱数生成器は,連続計算に使われるものとは異なり,必然的に実際の乱数も異なったものになる.さらに,任意の並列計算について,計算の特定部分に割り当てられる実行スレッドは,実行ごとに違うものになることがあり,このため,最初は同じ乱数の状態であっても,結果は実行ごとに異なることがある.

以下では,格子上の n ステップのランダムウォーク(複数のシミュレーションについて1つは連続して実行され,もう1つは並列で実行される)のシミュレーションを行う2つのCompiledFunctionオブジェクトを作成する.

連続実行するものは,BlockRandom内で実行するたびに毎回同じ結果を返す.

しかし,並列で実行されると,結果は異なる.

違いの大部分は,結果の順番の違いにある.Intersectionを使うと,多くは実際には同じであることが分かる.

同じであるものは,毎回同じ実行スレッドで実行されたものである.

通常BlockRandomあるいはSeedRandomを使う場合,並列計算外部でこれを使うことが望ましい.これらのコマンドを並列評価内で使いたい場合は,現行の実行スレッドだけに作動する.このことについては,「乱数生成」 「並列計算のSeedRandomおよびBlockRandom」のセクションに説明されており,心に留めておいたほうがよい.

SeedRandom[seed,Method->"ParallelGenerator"]を使って,並列計算用の乱数生成器を変更することができる.並列計算のデフォルトの乱数生成器は,高品質の乱数を生成する一連の1024のメルセンヌツイスタ生成器である.Wolfram言語は,並列計算のそれぞれの実行スレッドに毎回異なるこれらの生成器のいずれかを使う.これらの重要な機能は,それぞれが他から独立して乱数を生成するということで,このためそれぞれの実行スレッドで行われる計算間で相関関係はないということである.このことを示すには,ブロック検定と呼ばれる乱数の標準検定を行えばよい.

ブロック検定は,任意分布から生成された数の標本平均が中心極限定理で収束すべきように,正規分布に収束することを確認する.収束しない場合は,分布に問題のある可能性がある.

以下は,等しい確率で0か1になる n 個の整数からの標本平均を得て,リスト引数を与えられると並列実行を行うCompiledFunctionを定義する.

これを使って,連続と並列で n ビットの m 個の標本平均を生成する関数を定義する.

中心極限定理から,標本の合計は同じ平均と標準偏差を持つ正規分布に従わなくてはならない.

今度は連続と並列で標本の合計の集合を得る.

並列計算のほうがずっと速い.

予想される分布の確率分布関数と比べた,連続と並列のデータのヒストグラムを示す.

視覚的にはどちらがいいかを判断することは難しい.DistributionFitTestを使って,データが予測される分布と同じ分布に従う帰無仮説 と同じ分布に従わない対立仮説 を持つ適合度仮説検定の 値を得る方が望ましい方法である.

DistributionFitTestの検定統計は,それ自体が(連続)一様分布でなければならないので,一番よい情報は,何度も連続実行と並列実行を行って比較することから得られるものである.

並列制御

コンパイルされた関数は複数の実行スレッドを使って並列に実行する.スレッド数はまず$ProcessorCountによって設定される.

実際の設定はSystemOptions"ParallelOptions""ParallelThreadNumber" サブオプションを使って変更することができる.

次は並列にコンパイルされた関数のデモンストレーションである.

ここでは,スレッド数が1に設定されている.このため,コンパイルされた関数が強制的に連続実行されることになる.

実行時間はParallelizationFalseに設定されたかのようのに等しくなる.