複数のデバイスにおける CUDALink
Wolfram言語の中核である関数型,およびリスト志向の特性により,CUDALink は組込みの即時データ並列化が提供でき,利用できるGPUカードに自動的に計算を分配する.
はじめに
$CUDADeviceCountはシステム上のデバイス数である.
$CUDADeviceCount | システム上のCUDAデバイス数 |
$CUDADeviceCountはシステム上のCUDA GPUデバイス数を取得する
CUDALink は既存のWolfram言語並列計算機能を使って複数のGPU上で実行する.このセクションでは,以下の関数を使う.
ParallelNeeds | パッケージを全並列サブカーネルにロードする |
DistributeDefinitions | 並列計算に必要な定義を分配する |
ParallelEvaluate | 利用できる全並列カーネルで入力式を評価して得られた結果のリストを返す |
CUDALink はWolfram言語の並列計算機能で複数のGPUを使う
すべてのカーネル上の$CUDADevice変数を設定する.
CUDALink 関数
画像処理,線形代数,高速フーリエ(Fourier)変換等の高レベル CUDALink 関数は他のWolfram言語関数と同様に異なるカーネルで使用できる.違いは,$CUDADeviceが計算が行われるデバイスに設定されるということだけである.
画像の名前をExampleDataのTestImagesデータ集合から取られるように設定する.
ExampleDataから取られた画像にCUDAErosionを適用する.
速度が2倍改善されたことに注目されたい.これらの画像は小さく,データは転送されなければならないので,パフォーマンスは4倍は上がらない.
その他の場合は,データの転送にかかる時間は計算に必要な時間に比べると多くない.ここでは2000のランダムな整数ベクトルを割り当てる.
各デバイスにCUDAFoldをマップする.
CUDALink プログラミング
CUDAFunctionは最適化されており,GPUに局所的であるため,DistributeDefinitionsを使ってワーカーカーネルと共有することはできない.このセクションではGPUをプログラムする別の方法を述べる.
2を足す
CUDAFunctionをロードする.割当てにSetDelayedが使われている.これにより,DistributeDefinitionsはCUDAFunctionLoad呼出しのすべての従属変数を分配することができる.
異なるCUDAデバイスを使って各ワーカーカーネルでCUDAFunctionを実行する.
マンデルブロ(Mandelbrot)集合
これは CUDALink ドキュメントの別のセクションで定義されたものと同じCUDAコードである.
CUDAFunctionをロードする.
それぞれ異なるズームレベルでカーネルを開始し,"Bit"画像を返す.
乱数生成器
以下のファイルにメルセンヌツイスタ(Mersenne Twister)が実装されている.
CUDAFunctionのための入力変数を設定する.
mersenneTwister関数と入力パラメータをを分配する.
シードの値を割り当てる.乱数が相関性を持たないようにするために,シードの評価は各ワーカーカーネルで行われなければならないことに注意.出力メモリも割り当てられ,計算が行われ,結果が可視化される.
メモリ
CUDAMemoryはカーネルとそれがロードされているデバイスの両方に結び付けられているため,ワーカーカーネルには分配できない.
分配されたCUDAMemoryはワーカーカーネルによって操作することはできない.
メモリはParallelEvaluateを使ってワーカーカーネルにロードできる.
ParallelEvaluateを使ってメモリ上でさらに処理を行う.
帯域幅
場合によっては,データの転送に費やす時間が計算に必要な時間より多くなることがある.
並列処理では大きなリストをワーカーカーネルと共有しなければならないので,直列処理を行う場合より大幅に時間がかかる.