论文部分内容阅读
地震波数值模拟在天然地震学及地震勘探等领域发挥着重要的作用,得到了众多科研机构与物探公司的高度关注。本文着力研究区域尺度地震波高效并行谱元求解器,主要分为地震波方程高效时空离散格式及其并行实现两个方面。 在格式方面,我们采用谱元方法和显式全局时间推进格式离散地震波方程。在此基础上,提出一种单元刚度矩阵分解策略优化地震波方程谱元格式,显著降低了地震波方程谱元格式的计算量与存储量。进一步,提出一种局部时间推进策略克服显式全局时间推进的稳定性限制引起的全局时间步长过小问题,很好结合了地震波方程谱元格式,有效提升了地震波方程谱元格式的计算效率。格式覆盖了弹性波方程及声波方程,并考虑了各向异性、粘性、耦合、震源等因素,同时使用了完美匹配层方法来实现无反射边界条件。数值实验验证了格式的正确性和高效性。 在并行实现方面,首先,我们基于三维并行自适应有限元程序开发平台PHG的六面体版本,考虑到谱元格式的特殊性,简化了分布式并行数据结构,同时优化了并行性能,最终给出了谱元格式的MPI并行实现及MPI+OpenMP混合并行实现。在天河2号超级计算机上,谱元格式的MPI并行实现扩展到98304个CPU核,1500多亿自由度,并行效率(相对24个CPU核)达到98.01%,具有近乎完美的弱可扩展性。谱元格式的MPI+OpenMP混合并行实现扩展到98304个CPU核,1500多亿自由度,并行效率(相对24个CPU核)达到89.62%,具有良好的弱可扩展性。其次,我们在谱元格式的MPI并行实现基础上将算法热点加载到MIC卡上进行加速计算,给出了谱元格式的CPU+MIC异构并行实现。在天河2号超级计算机上,谱元格式的CPU+MIC异构并行实现扩展到820800个MIC核,1800多亿自由度,并行效率(相对171个MIC核)达到85.50%,具有良好的弱可扩展性。我们基于GPU的计算架构,利用了CUDA C编程和性能调优,给出了谱元格式的CPU+CPU异构并行实现,实现了单GPU卡对单CPU核的136倍的加速效果。此外,我们还基于国产众核的计算架构,采用了流水线结合双缓存的计算策略,对算法热点进行了从核化。算法热点从核化的加速效果是明显的。其中,遍历单元计算部分从核计算对主核计算的加速比达到24.45倍。最后,我们通过数值算例验证了求解器的有效性。