有限差分算法在众核平台上的优化研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户:10198223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来基于异构众核架构的高性能计算机系统取得了巨大的成功,与硬件技术不断高速发展相比,高性能应用软件的研发受异构编程模型和并行运行效率的限制,发展相对滞后。作为电磁学、地震学、流体力学等领域的重要算法,有限差分算法的性能决定了应用软件的有效性,而目前针对众核平台的高效并行有限差分算法研究尚且较少。为了解决此问题,本文研究了有限差分算法特点,归纳了有限差分算法在MIC和GPU两种被广泛使用的众核平台上优化时所面临的三个难题:非连续性访存、异构协同计算和多众核节点并行计算。在MIC众核平台上,提出三步递进法对有限差分算法进行优化:首先,通过分支消除、循环展开、不变量外提等基本优化法削减计算强度并为向量化扫除障碍;然后,通过分析数据依赖,循环分块,使用向量指令集改写核心算法等并行优化法,充分利用MIC协处理器多线程、长向量的机制;最后,在异构众核平台(CPU+MIC)下,通过数据传输最小化,负载均衡等异构协同优化法,实现CPU和MIC的并行计算。在GPU众核平台上,从一个GPU到多个GPU对有限差分算法进行优化:首先使用CUDA编程模型实现有限差分并行算法,利用多CUDA流计算模式实现算法中核心迭代的流水线执行方式,最大化GPU计算资源使用率;然后针对算法不规则访存的特征,利用低延迟可编程控制的共享内存对算法进行分块并行,充分利用单GPU中每个流多处理器SM的低延迟共享内存资源;最后对数据进行划分以实现有限差分算法在多GPU上并行计算,并通过优先计算GPU间交叠网格消除数据依赖以及Peer To Peer数据传输方式获得了接近线性的性能加速比。经测试,相对于串行有限差分算法,优化后的并行有限差分算法在MIC众核平台上和GPU众核平台上均达到了约120倍的最大加速比,此外本文提出的优化方法在多GPU众核平台上获得了线性增长的加速比,具有很好的并行性和可扩展性。优化过程中所使用的技术,特别是针对异构协同、多众核节点并行所做的优化,为其他运行于异构众核平台的应用程序并行优化提供了可借鉴的思路。
其他文献
近年来,随着计算机技术的快速发展,计算机仿真的应用领域不断拓宽,国民经济发展特别是军事需求的强大推动,促使计算机仿真走上了快速发展的道路。然而,这类仿真平台往往是针
随着国家对国有企业深化改革的要求,为了提高国有资产的盈利,避免各省级电信分公司在企业管理系统上重复投入建设,集团公司对各省的企业管理系统进行全面集中,各省级分公司只
近年来,随着社会经济的不断发展,公共服务需求的不断增加,我国的邮政服务也急迫的需要进行变革,从而适应时代的发展以及客户的需求,特别是现有的邮政便民服务站系统,虽然各省
无线自组织(Ad-Hoc)网络在无专用通信基础设施的场景下,网络具有动态适应性和生存能力,因此,在未来移动通信网络中起到重要作用。但是,由于其分布式、能源有限等特点,无线Ad-
近十年来,随着无线通信的飞速发展,对频谱资源的需求也急速增加,从而导致本来就匮乏的频谱资源变得更加日益紧张,这一问题成为阻碍无线通信技术发展的最大因素。在当前采用统
在人类产生语音时,情感的表达这一重要过程中,人类大脑中涉及情感语音生成和情感语音理解区域的控制机理和相关功能是非常复杂的,在这之中包括了许多复杂的神经处理过程,而建
提高涡轮前温度是进一步提升航空发动机性能的关键因素,受限于材料的耐温极限,发展先进的涡轮叶片冷却技术显得尤为迫切。本文立足于此,面向涡轮叶片内部冷却技术,通过实验和
植物油脂经加氢脱氧制取可再生的柴油类烃获得了广泛关注,其中催化剂是实现高效加氢脱氧的关键。金属Ni基催化剂活性高、成本低廉,但同时存在C-C键氢解和甲烷化活性高导致碳收率低、耗氢量低等问题。本文通过引入金属Ga调变Ni的几何和电子结构,抑制了金属Ni的C-C键氢解和甲烷化活性,提高了C收率。为了解决通常加氢脱氧时外部供氢存在的制氢流程长、生产操作不安全等问题,探索了以甲醇为供氢剂时Ni-Ga双金属
水下传感器网络由固定在海底或者悬浮在水中的传感器节点组成,节点之间相互通信并构成一个自组织网络。节点上搭载有专门的传感器,负责监测收集某一片海域的温度、深度以及其
磁感应游离磨粒线锯切割技术是一种新型的且很有前途的硅片切割技术,具有切割范围广、切割效率高、能源消耗少、易控制等优点,因此,磁感应游离磨粒线锯切割技术的不断发展,将