论文部分内容阅读
基于CUDA和MPI实现了格子Boltzmann方法的多GPU并行计算,利用程序对Tesla K80和Tesla P100的性能进行了测试,结果表明:Tesla P100有着远超Tesla K80的计算性能.单GPU下,P100在计算规模为2563达到最大值2880.0 MLUPS,K80在规模为3843达到最大值801.6MLUPS;在多GPU并行时,GPU间通信会带来计算性能的损失,但是P100较K80仍具有较大的提升;测定函数LBCollProp在不同规模下运行时间以及其在程序总运行时间中的占比,由此可以预估程序运行一定时间步的耗时.