大规模多核机群上的代数多重网格性能优化

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:luohua0891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的数值模拟的普遍应用对计算机系统的计算能力提出了很大的挑战,代数多重网格(AMG)作为众多数值模拟应用的核心算法,具有良好的算法可扩展能力和并行扩展性,因此优化AMG的并行效率具有重要的实用价值。随着超级计算机体系结构的发展,大规模多核系统成为主流,在这种新的趋势下,AMG的并行扩展性暴露了新的问题。本文的主要工作即是优化AMG在多核系统上的并行扩展性。   MPI并行程序的线程规模过大将面临可靠性下降的问题,合理的解决方案是使用MPI+OpenMP的多层次并行。但是在NUMA结构的多核系统上使用OpenMP并行扩展,会面临数据集中在主进程所在CPU上,缺乏局部性的弊端。我们通过设计感知NUMA架构的内存分配器,将划分给多个线程的数据分割并绑定到运行对应线程的CPU所属的NUMA存储节点上,从而改善了OpenMP多线程并行的数据局部性,使BoomerAMG程序在大规模多核计算平台上具有更好的并行扩展性。在单节点和小规模机群的测试中,使用NAAlloc分配器分别获得了最高16%和60%的性能提升。   另一方面,原始的BoomerAMG程序只提供了CSR这一种稀疏矩阵存储格式,目前没有考虑加入其他可能具有更高运算效率的矩阵格式。于是我们利用目标应用的系数矩阵具有较强的对角线元素分布的特征,使用DIA稀疏矩阵存储格式部分代替BoomerAMG原有的CSR格式,并且对耗时最多的运算包括SpMV和松弛迭代的底层核心代码进行优化,综合使用了cache分块、循环展开等常用优化手段。测试显示AMG的整体并行求解时间缩短了5%~10%,其中SpMV kernel的性能有较显著的40%以上的提升。
其他文献
天线作为微波通信领域的基本的设备,凡是利用电磁波来进行信息的传递和接收的相关领域均是应用天线和天线的相关的技术来实施的,其被广泛的应用到电视广播,航天航空及遥感等实际
我国基础教育随着新课改的不断深入,教育信息化建设的重要性越显突出,国家、社会和地方政府对中小学教育信息化建设投入也在逐年攀升。但对于我国广袤的、经济相对落后的中西部
在日常生活中,我们身边充斥着流体现象。流体现象的模拟在影视特效、灾害预防等应用中具有极为重要的意义。因此近十年来,流体现象的模拟一直是计算机图形学领域中的热点问题。
目前,校园网系统中普遍以“用户名+静态密码”作为用户身份认证的方式,这种身份认证的方式存在着很大的安全风险,比如静态密码的泄露、非法用户的登录以及用户对于自己所做的
传统的工作流系统无法满足企业构建数据密集型应用的需求,需要借助于Hadoop平台处理大数据的能力。现有的Hadoop工作流系统采用自定义的描述语言构建Hadoop工作流,无法与企业已
智能物件通常是指物理世界中能够在嵌入式设备协助下进行感知、传输环境信息并进行特定操作的物体,而IP智能物件(IPSO)是指使用IP技术进行联网的智能物件。IPSO具备低功耗、
在油田勘探开发研究和应用过程中,地质人员需要通过各种方式收集大量的测井数据、地层数据、砂层数据等油藏数据信息,进行连井剖面的绘制。如何快速方便的完成连井剖面的可视
学位
可定制嵌入式计算机具有可裁剪、体系结构灵活、便于加固等优点,其价值逐渐受到工业、军事、航天等领域的重视。本文在深入分析国内外研究现状的基础上,围绕着可定制嵌入式计算
人脸是最重要的生物特征之一,人脸图像上蕴含了大量的生物特征信息,例如性别、年龄、人种等。基于人脸图像的性别识别及年龄估计是根据人的脸部图像判别其性别及估计其年龄的模