高阶精度CFD程序的GPU并行与优化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:womjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算流体力学(Computational Fluid Dynamics,CFD)是一门采用数值计算方法求解流体运动控制方程,以研究流体运动相关问题的交叉学科。当前,CFD已广泛应用于航天航空、汽车、船舶、能源、化工等领域。CFD的发展及其应用很大程度上得益于计算能力的提高,在高性能计算体系结构上对CFD应用程序进行并行化与性能优化有重要意义。近年来,随着图形处理器(Graphics Processing Unit,GPU)性能的快速提升,GPU被越来越多地用在高性能计算机中作为计算加速部件,CPU+GPU结构的计算机成为使用最广泛的异构并行平台。但是GPU编程的难度较大,技术尚不成熟,如何在GPU平台上实现CFD软件的高效移植与性能优化,成为高性能计算领域面临的一个重要问题。本文针对一个高阶精度CFD应用程序HNSC(High order Navier-Stokes simulator for Compressible flow)在GPU上的高效并行与优化问题开展了研究,首先基于CUDA Fortran实现了HNSC在GPU上的基础并行,然后从GPU体系结构与编程技术、应用程序的通信与模板计算等特点出发,研究了一系列性能优化技术,测试取得了良好的性能加速效果。论文主要工作如下:(1)基于CUDA Fortran,实现了HNSC面向GPU的并行移植,并利用了NVIDIA GPU上MPS(Multi-Process Service)技术和Pinned Memory,得到的基础GPU并行程序GPU_Base在使用2块Tesla K80 GPU时,相对于运行于2个Intel Xeon E5-2660 CPU(共20核)的纯MPI并行程序取得近2倍的性能加速。(2)根据HNSC的通信特点,采用数据打包传输的方式优化MPI通信,提高了MPI通信效率,并减少CPU-GPU间的数据传输开销。测试结果表明,打包数据传输的GPU程序版本在2块K80 GPU上的执行性能相对于原来的纯MPI版本在2个Intel Xeon E5-2660 CPU上的执行性能最高有10倍的性能加速。(3)分析了HNSC中高阶精度模板计算的特点,提出两种优化GPU程序访存效率的方法。其一是使用寄存器上的洗牌函数来减少全局内存访问并提高寄存器中的数据重用性,然后调整线程计算量并压缩halo区的线程宽度,从而进一步加速寄存器上的模板计算。其二是基于共享内存上的loop tiling来加速带宽受限的核函数,实现了几种不同的核函数,对分块大小、bank访问模式以及线程计算粒度进行权衡。这两种访存优化使GPU上关键核函数最大加速分别达2.79和3.51倍,将访存优化应用于整个HNSC的高阶精度模板计算核函数后,GPU版本相对于原CPU版本性能加速比最高达12.5。
其他文献
退役军人安置工作,能够有效保证军队的战斗能力,维护国家的政权。对怀化市退役军人安置工作的研究,目的是以小见大,分析解决地方政府在退役军人安置的过程中所碰到的现实困难,也为促进新颁布的《退役军人保障法》等相关制度的完善,推动政策的有效落实提供理论支持。文章界定了退役军人安置的相关概念,分析了目前我国针对的退役军人的主要安置方式,运用新公共管理理论、社会保障理论以及文献法、调研法、案例分析法等方法,研
学位
城市进程的加快导致了夜间光污染问题的出现,灯光监测纳入智慧城市环境治理体系。既有光环境研究多集中在空间维度上表达灯光分布特征,缺乏时间和空间双重维度的灯光演变特征研究,而数字化及机器学习等工具的成熟,为光环境时空分布与精准动态监控研究提供了理论和技术支撑。因此本文以大连市光环境为研究对象,将预测概念引入城市灯光监测系统中。使用长时间序列遥感影像、多参数地面实测数据研究大连市灯光时空演变特征;通过误
学位
随着社会经济的不断发展,人们的生活水平和收入不断提高,使得文旅经济也在蓬勃发展。山东省青岛市自然资源和人文资源丰富,文旅产业潜力巨大,但是由于国内外市场经济发展逐步放缓、国内旅游市场的竞争愈加激烈和青岛文旅产业本身发展存在的问题,导致青岛整体文旅产业处于瓶颈期,突破瓶颈状态的重点在于文化资源的重新整合和文旅品牌的重新塑造,打造全新的文旅产业竞争优势,实现品牌价值的再提升。本论文在文旅融合的视角下对
学位
近年来,数据中心的数量和规模越来越大,导致数据中心的能耗大幅增长,这会造成一系列经济和环境问题。IT设备能耗是数据中心的主要能耗之一,其中服务器能耗占比最高,因此降低服务器能耗有助于数据中心节能。对服务器进行能耗预测,可以辅助数据中心基于能耗实施调度策略,降低数据中心能耗。本文从时间序列分析的角度出发,对数据中心能耗预测问题进行了深入研究,提高了预测模型的精度。本文将服务器的能耗预测问题转化时间序
学位
新型冠状病毒肺炎疫情爆发后(以下简称为新冠肺炎疫情或疫情),深刻影响着大学生的思想情感、生活方式。危机中孕育着新机,党中央带领全国人民同心抗疫的伟大实践极大充实了大学生思想政治教育工作的内容,凸显出深刻的导向价值、教育价值和激励价值。习近平总书记强调,新时代高校思想政治工作必须与时俱进,不断创新工作方法,增强高校思想政治工作的时代感和吸引力,提高思想政治教育针对性和亲和力。只有结合抗击新冠肺炎疫情
学位
近年来,云计算技术的发展十分迅猛,按需支付的商业模式和个性化的计算需求使得工作流调度中的现有的计算资源规划面临巨大的挑战。因此,研究人员致力于引入元启发式调度算法去缓解资源利用率差的现象,大多数研究人员主要关注任务的负载均衡,以达到产生更加高效的计算资源利用的目标。然而,这种仅关注一种目标的情况将增加具有较大规模的任务的执行时间,从而导致其调度效率低下。目前市面上的大多数调度算法也是仅关注一种目标
学位
近年来,针对硬件的攻击如冷启动攻击这类针对嵌入式计算设备中内存的攻击不断出现,严重威胁嵌入式计算设备的安全。在这类攻击中,攻击者利用特殊工具对嵌入式计算设备的内存进行物理访问,就能获取到内存中的秘密数据。为此,本文提出一种基于物理不可克隆函数(PUF)的安全存储结构。该结构利用PUF为加密算法生成安全密钥,并针对嵌入式微处理器具体应用进行结构优化,从而使嵌入式微处理器能够抵抗多种针对内存的物理攻击
学位
近年来,随着大数据的发展,GPU应用的数据集规模急剧增加,这对GPU的处理能力提出了挑战。由于摩尔定律即将达到极限,提升单一GPU的性能变得越发困难,而多GPU系统通过提升GPU处理器级的并行性,成为应对该挑战的一种解决方案。GPU制造商对内存虚拟化的支持进一步简化了多GPU系统的编程,提升了资源利用率。内存虚拟化需要地址转换的支持,现阶段的研究表明,地址转换请求若未在TLB命中,会引起页漫游导致
学位
在篮球比赛中,罚球是一项极为重要的得分方式,罚球往往能够改变比赛的走向甚至能够决定比赛的输赢。近些年来,球队对于罚球技术的训练逐渐规范化,通过聘请专业的投篮教练对运动员进行罚球指导,但是传统罚球分析都是基于视觉或者传感器对训练中的运动员进行分析,这种方式费时又费力,且很难对实际比赛中球员罚球的状态做出准确且稳定的预测。本文对目标检测以及人体姿态估计算法进行了研究,通过深度学习的视频分析技术为罚篮命
学位
职业教育作为教育体系中的重要组成部分,为我国经济社会发展和脱贫攻坚工作培养了许多掌握现代化技能的高素质人才,特别是民族地区的职业教育,已成为补齐民族地区教育短板、促进教育公平的重要方式。四川省“9+3”免费教育计划(下文简称为“9+3”计划)正是为了推动民族地区经济与社会发展和实现长治久安而提出的,自2009年实施以来,惠及到许多贫困的农牧民家庭,促进学生所在农牧民家庭脱贫致富,为四川省民族地区培
学位