数万核级与异构架构有限元程序可扩展性测试与分析

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:shellyyiqiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文对多尺度有限元程序msFEM的CPU、GPU双精度以及GPU混合精度三个版本进行了测试.msFEM_CPU在美国橡树岭国家实验室的Jaguar上实现了从2万到20万核的可扩展性测试,在80亿自由度的测试规模下,20万核的并行效率为71%.msFEM_GPU采用MPI+OpenMP+CUDA的混合并行模式实现了GPU全双精度和混合精度两个版本.GPU版在Jaguar和华南超算中心(深圳)的曙光6000/Nebulae分区上分别实现了900和1500个GPU节点的全系统可扩展性测试,实现近线性加速,GPU节点规模最大时并行效率为90%以上.混合精度算版本相对全双精度算法有1.5倍加速.测试表明:msFEM具有良好的可扩展性,为大规模问题求解奠定了基础.
其他文献
2005年是抗日战争暨反法西斯战争胜利60周年,郭岭梅被大量媒体“揪”了出来,因为她是俊华日军细菌战纪录片《不只是“731“》的编导。也由此,记者得知1950年出生的她竟是诗人
  通过将Orthodir(m)算法两个向量内积改成几个连续内积,改变算法数据相关性,提出了改进的Orthodir(m)算法(IOrthodir(m)算法)。改进的算法具有与原算法相同的收敛性。理论分
  稀疏矩阵相乘是在科学和工程计算中有广泛应用,是科学计算中的一种常用的基本运算。但也面临着数据量大,非零值分布不规则,负载难均衡,计算结果矩阵的列指数无规则分布等问题
生长后期研究不同抗寒性的葡萄品种叶片中氧化酶(CAT、POD、SOD、ASAPOD)活性及变化规律表明:抗寒性强的品种酶活性高,抗寒性差的品种酶活性低,且随着气温的下降而下降,以抗寒性强的品种变化得慢,抗
本文报道了黄埔港1992~1994年来自疫区船舶卫生检查结果。3年来自疫区中外籍船舶共730艘,其中中籍船舶222艘,占30.41%;外籍船舶508艘,占69.59%。中外籍船舶发现有鼠、虫、蝇、蚊
  理论证明蒙特卡洛模拟法能够精确估计汇率的VaR,但此方法计算量较大,实际中较难运用。在CUDA平台下利用GPU加速运算能很好的解决海量数据运算问题。在此假设汇率基本服从
  资源分配方法和技术一直是云计算领域中的热点问题。针对一定的用户任务,如何选择最合适的计算资源,使用户需求得到最大程度的满足,已成为决定云计算技术商业前景的关键。现
会议
  数据挖掘并行算法,应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究,在考虑到挖掘效率,负载平衡,运行环境,节点状态等多方面因素的基础上,提出了
会议
  作为承载云服务的基础设施,数据中心通常会在不同的应用和租户之间进行共享.传统的带宽分配需要预留带宽,但是流量行为难以预测.InfiniBand(IB)是HPC中主导的互联技术,同
会议
  在大数据时代,图的分析和挖掘是一类非常重要的应用.其中,一大类的图算法可以用遍历模式来实现.本文通过对图遍历算法的基本计算特征进行分析,给出了一个新的实现图遍历