面向应用的GPU并行技术研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:fjtv55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各研究领域的技术进步,其应用规模不断增加,对计算平台性能的要求也越来越高。本文研究内容主要在面向多媒体应用和科学计算及工程模拟应用及其核心算法。功耗瓶颈的出现使得以往通过提高处理器主频来提升性能的模式无法延续。在此背景下,多核/众核体系结构作为近期和未来提升处理性能主要发展方向,已成为学术界及产业界的广泛共识。以效能优异且峰值性能卓著的GPU为代表的协处理器不断推动着并行计算研究的发展。与此同时,以CPU-GPU为代表的大规模异构系统也是高性能计算集群重要发展方向之一。虽然,GPU硬件和体系结构不断推陈出新,随着时代需要不断发展,成果显著。但是,GPU编程技术发展相对缓慢,无法像传统CPU一样简单高效,应用程序并行化的效率问题相对突出。本文以特定的应用为对象,研究基于GPU加速器和大规模CPU-GPU异构系统的应用并行化,包括并行算法改进,算法并行化设计与优化,大规模CPU-GPU异构系统上的简单性能预测、静态负载划分和通信开销优化。本文的主要研究工作和创新点如下:1.本文以暗原色先验去雾算法为研究对象,针对原算法部分区域去雾效果差、内存开销大和计算复杂性高的不足,提出了一系列的算法改进。以改进后的算法为串行算法,进行了GPU并行化实现和优化研究。针对算法对大片类大气光区域去雾效果有限的不足,我们提出了类大气光辨识法,通过保留这些区域原色的方法,改善了类大气光区去雾效果;针对算法内存开销大的缺点,我们采用“指导滤波”方法,极大的减少了算法运行时的内存占用过大的问题;针对算法计算量过大的缺点,本文提出了多级分块法和综合评估值新方法,极大减少计算量。针对算法本身和GPU平台的编程特点,进一步优化了基本的并行程序。本文提出了新的积分图并行实现方法和大气光综合评估值法,提高了算法并行度;我们也通过对kernel的组织进行了优化,如kernel的横向合并、纵向合并或两者结合的方法,减少kernel的启动开销,从整体上提高相应模块的并行性能。通过充分利用共享存储器,减少全局存储器访问开销。2.本文基于层级式运动估计算法,提出了并行且扩展性良好的多层分辨率运动估计方法。通过将研究重点放在算法并行度提升上,用低分辨率层图像中搜索候选项作为搜索指导,成功释放相邻LCU之间的数据依赖关系。与此同时,我们采用多个搜索窗口的方式保证了多层分辨率方法的搜索效果。本文展示了多层分辨率方法的详细处理过程,并对其每一步骤计算复杂性和高度的并行性进行了定性定量的分析研究,分析结果表明多层分辨率方法适合众核处理器。最后我们在GPU平台上对多层分辨率方法进行了实现和优化,用以评估其并行性和可扩展性。3.本文面向心脏心电模拟应用,对科学计算领域广泛应用的有限元方法在可扩展异构系统上的性能进行了研究。主要研究了三维非结构四面体网格的有限元方法在多节点CPU+GPU平台上的并行实现与优化相关技术。本文基于可预测的实际性能,提出了一个简单实用的理论模型来预测异构CPU-GPU结点的可获得性能和性能瓶颈,从而为任务划分提供指导;并且采用一系列线程处理和优化方法来优化并行性能,使得CPU的性能得到充分发挥,同时又不影响GPU性能,最终获得了比单纯使用GPU更高的并行性能。本文针对强扩展时的MPI边界数据计算和通信的瓶颈问题,提出了一系列的优化策略。(1)让性能更好GPU参与到MPI边界数据处理中,从而加速MPI边界数据计算,尽早完成边界数据计算启动MPI通信任务;(2)在GPU处理MPI边界域数据时,采用多段化方法来实现计算与数据拷贝的重叠处理,从而尽可能隐藏MPI边界数据拷贝开销;(3)采用多通信线程来加速MPI边界域数据的打包、发送、接收以及向GPU内存的拷贝过程,节省开销;(4)通过管道方式将接收到的远程MPI边界域数据拷贝到GPU,即通过先到先拷贝,边接收边拷贝的方式,实现接收和拷贝的重叠,提高效率。
其他文献
风险很大,但孙正义还是出手了。这一次真金白银的投入,他看中的是PPTV这家企业的哪些方面?
对导致体育教育专业学生术科能力欠缺的原因进行了分析。近年来报考体育教育专业的学生专业志向中的体育目标和技术基础明显不足、教学改革无视学生实际情况、扩招导致学校施
基于提问式口语教学能够通过学生提问,教师回答;或是学生提问,学生回答的方式,改变学生被动学习的局面,文章分别从激发学生问的欲望、教会学生问的方法、实现问的训练、进行问的考
【正】 对于最先被推到市场经济的风口浪尖上的中小企业来说,如何在与大企业竞争中赢得自己的一席之地,或构筑起自己的势力范围,想必是众多中小企业主们最关心的问题了。那么
冬瓜喜温耐热,产量高,耐贮运,是夏秋的重要蔬菜品种之一,在调节蔬菜淡季中有重要作用,适宜市销、北运和出口。我国各地均有栽培。夏末、秋初果实成熟时采摘。去皮,洗净,食用
期刊
基于创新教育视角,该文在静电场模拟实验误差分析及误差来源分析的实验教学中,采用了新的数据处理方法,显著降低了实验误差,并藉此实验项目探讨了物理实验教学对学生创新能力
论述了完备联立方程模型中的结构式方程在可识别的情况下,其结构参数由简化参数唯一或不唯一表达的条件,并举例分析说明,同时也给出了在表达不唯一时,由简化参数估计值确定结
研究了外源褪黑素对低温胁迫下番茄幼苗体内丙二醛(MDA)含量、脯氨酸含量、叶绿素含量、活性氧代谢等生理指标的影响.结果表明:外源褪黑素能有效提高番茄幼苗的低温抵抗能力,与对
量子密钥分发(Quantum key distribution,QKD)技术,基于量子不确定性原理和未知量子态不可克隆等量子力学基本原理,以量子态为载体,通过对量子态信息编码、传输和量子测量等
现在,中国还没有一家企业完全实现全员持股。“我愿意做中国民营企业‘全民股份制’试点。”华耐家居集团总裁贾锋如是表态。时隔近半年,当华耐家居集团一线员工景丽红向《中外