基于多GPU的PCG算法并行研究及其在地下水流动模拟中的应用

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:cchongzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PCG算法的并行化对许多研究问题有重要意义,可通过提高求解方程组的效率来提高数值模拟的效率。为了科学使用地下水资源往往需要分析预测其流动规律。随着研究的不断发展,地下水数值模拟程序MODFLOW已经不能很好的对大规模实验问题进行模拟分析。为了提高模拟效率,本文主要研究在多GPU环境下对PCG算法的并行化,并将其应用于MODFLOW中,从而实现MODFLOW的并行模拟。本文将PCG算法中的线性代数运算实现为基于CUDA的核函数,重点研究DIA格式并实现了较为高效的SpMV核函数。为了在单节点多GPU环境下对PCG并行化,计算任务被均等划分并分别求解,求解过程中GPU间数据传输是性能瓶颈,为此本文通过减少非必要的数据传输和将SpMV计算与传输重叠的方法来减少数据传输开销,提高PCG的加速比。在单节点环境中使用6个GPU的条件下,PCG的加速比随着GPU数量的增多和数据规模的增大而得到明显提高,最高达到36.3。在多节点环境中,通过MPI创建多个进程来通过多个GPU求解方程组,本文通过合理的数据传输模型来统一节点内和节点间数据传输的差异性,使其具有可移植性和高效性。在使用2个节点4个GPU的条件下,实验数据的最大加速比为17.3,小于单节点环境下的加速比。为了对MODFLOW并行模拟,本文分析了其模块化结构,在单节点系统上设计了OpenMP+CUDA的并行模拟流程,将其中构建方程组和求解方程组模块重新设计,实现计算任务划分和多个线程分别调用PCG求解器来完成模拟计算。在单节点环境的实验结果表明在使用6个GPU条件下,MODFLOW最大达到了11的加速比,小于并行化PCG的加速比,其原因是MODFLOW中可并行化部分的比例降低,导致加速比的减小。结果还表明稳态模拟类型的加速比较大,因为其额外开销更少。为了研究MODFLOW的可扩展性,本文结合多节点环境设计了MPI+CUDA的并行模拟流程。实验结果表明在使用2个节点4个GPU条件下,并行化MODFLOW最高达到了8.5的加速比,表明其具有一定的可扩展性。在多节点环境下,节点间数据传输的低带宽是性能的瓶颈,导致加速比小于相同条件下单节点环境中的加速比。
其他文献
我们的目标是要为人民群众创造有价值的生活,这就必须正确认识和协调好"以人为本"在价值形态上的矛盾性,即在价值观中的人本与物本的矛盾、在价值追求中的个体与群体的矛盾、在
权力作为一种追求欲求的工具,也存在于未成年学生的日常生活中,并通常与暴力等非正常手段密切联系在一起。当个人的一些欲求不能通过正当渠道获得满足时,受权力崇拜等社会多
亚洲民间对日索赔,是亚洲各国日本侵略战争的受害者及其遗属,以法律为武器、通过诉讼的方式要求加害方承担战争责任并进行谢罪赔偿的正义行动。日本政府顽固地拒绝向受害者进行
2月18日,国务院总理温家宝主持召开国务院常务会议,审议并原则通过电子信息产业调整振兴规划(以下简称《规划》)。正如《规划》所称,当前的形势为“国际市场需求急剧下降、全球电
近日,在国际电信联盟NGN-GSISGl3会议上,由中国电信牵头,联合中国移动、中国联通、工信部电信研究院等单位共同提出的智能型网络NICE需求与能力标准的立项获得成功。
构建社会主义和谐社会是一项长期的任务。要完成这个艰巨的历史任务,首先要从观念上理清思路,认清形势,统一认识,为构建和谐社会确定思想原则。在此基础上,从中国实际出发,探索社会
数学作业是数学能力和提升的外在展示。数学作业能够客观地反应学生的数学能力水平。研究数学作业的设计和落实,非常有助于提高学生的数学学习能力,从而提升数学综合素养。本
随着光学加工和测量技术的发展,精密光学元件已广泛应用于各个领域。在光学元件加工和使用过程中,难免会有表面缺陷产生。由光学元件表面缺陷引起的光束散射和能量损失会大大
语义协商作为二语习得研究的重要组成部分始于二十世纪八十年代,并取得了相当规模的研究成果,但是汉语语义协商的研究还较为薄弱。本文通过调查分析10对来自不同国家的初级汉
随着国民经济的发展,人们物质消费水平提高,对旅游需求也越来越大,尤其体现在乡村旅游的需求,乡村旅游是我国实现乡村振兴、优化产业结构、解决农村人口就业问题的重要渠道。