3.6 計算時間のまとめ

表3-6-1に各手法の計算時間を示します。
ハードウェアの詳細は3.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で5~6倍速くなります。
GPUでは約30倍速くなります。

表3-6-1 計算時間のまとめ (novectorモード、単精度 共通)
ハードウェア並列化手法ベンチマーク400ベンチマーク500ベンチマーク600出所
CPU(参考)並列化なし174.3秒 (1.0)348.1秒 (1.0)597.0秒 (1.0)新規
CPUOpenMP 8スレッド 29.4秒 (5.9) 60.3秒 (5.8)108.9秒 (5.5)表3-2-2
CPUMPI 8プロセス 31.5秒 (5.5) 63.7秒 (5.5)109.8秒 (5.4)表3-3-2
GPUCUDA 6.0秒 (29.1) 11.4秒 (30.5) 19.3秒 (30.9)表3-4-1

図3-6-1にCPU/GPUのnovector/vectorモードの計算時間を示します。 (出所: 表3-2-2、表3-4-1)
CPU,GPUともに使用メモリーが少なく速いnovectorモードを推奨します。


図3-6-1 計算時間のまとめ(CPU:8スレッド、単精度 共通)