面向申威众核架构的GROMACS并行实现与性能优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xxxmcu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着众核处理器微结构技术的发展,片上集成的计算和存储资源越来越多,处理器结构越来越复杂。海量的片上资源和多样化的硬件结构使得高性能计算应用在众核处理器上并行优化的难度越来越高。当前世界排名第一的超级计算机神威·太湖之光由完全自主设计的异构众核处理器SW26010构建而成。该处理器采用独特的主从结构,片上包含260个异构核心,理论峰值性能高达3.06Tflops。鉴于其硬件结构的独特性,现有的商用平台上的科学计算应用必须经过重构和优化后才能够在神威·太湖之光上运行。GROMACS是当前最流行的开源分子动力学模拟软件之一,具有模拟速度快和适用范围广的优点,在新材料研制、化工模拟、生物医药等诸多领域被广泛应用。本文的研究目标是在神威·太湖之光上开展GROMACS的并行实现和性能优化工作,尝试突破现有软件在申威众核架构上并行优化所面临的一系列挑战性难题,充分发挥出神威·太湖之光的计算能力,为国产众核处理器应用水平的提高和体系结构的改进提供指导。本文主要研究内容和工作成果如下:(1)为了适应申威处理器独特的异构众核架构,我们为GROMACS热点函数设计了合理的任务划分策略和并行实现方案。利用主核与从核间的并行性,我们实现了基于三级流水线的任务级并行模式,在不引入额外时间开销的前提下解决了热点函数并行化过程中出现的负载不平衡问题和数据依赖问题。(2)为了解决申威众核架构访存带宽受限的难题并充分利用处理器计算资源,我们提出了众多性能优化策略包括合理利用SPM、DMA、软件Cache、从核混合并行等。利用GROMACS热点函数的访存局部性和申威众核处理器从核间的并行性,我们实现了热点函数运行时数据的高效重用并将从核访存时间开销充分隐藏。针对每一条优化策略,我们都对其实现细节和性能收益展开详尽地分析与讨论。(3)我们将GROMACS在从核上优化后的版本与其仅在主核上运行的版本进行比较。在单核组上,我们使用64个从核将GROMACS热点函数性能加速了约27倍,并且将软件整体性能加速了约6倍。在多节点扩展方面,我们将GROMACS的峰值模拟速度提升了约2倍。
其他文献
在这个科技高度发达的现代社会,我们每天都会与很多数据打交道,有些我们可以很容易从中获取信息,但是有些大规模的复杂数据,我们很难直观的获取到数据背后影藏的有效信息。于
随着三维模型精度的不断提高,三维模型的数据量在飞速的增长,这无疑对计算机处理与传输三维模型带来了很大的压力。三维模型的简化和多分辨率建模是处理以上问题的一个有效的途
聚类分析在数据挖掘领域中占有重要的一席之地,主要是用来发现数据对象在空间中的分布结构。根据数据对象间的相似度量,聚类算法将数据对象集合分割成若干个簇,在同一个簇中
现有的结构健康监测系统的特点是低功耗、低速率和不考虑数据传输的实时性。在各种灾异条件(比如海啸、飓风、地震、剧烈撞击等)下,结构设施会在短时间内发生巨大的变化,这时会产
随着信息技术的迅猛发展,图像处理技术在诸如医疗诊断、气象检测、军事侦测等领域发挥着越来越重要的作用。数字图像分割技术作为计算机视觉中的一种基本技术,是数字图像处理
运动模糊图像的恢复是目前数字图像处理领域研究的一个热点问题,有着重要的学术和应用价值。目前很多运动模糊恢复算法的计算量都比较大并且不能保证恢复结果的质量,针对上述问
本文针对现存的危险化学品安全管理中的主要问题,将无线传感器节点和RFID阅读器结合,应用到危险化学品安全监控中。RFID技术能够识别单个化学品的信息,无线传感器节点负责实
作为未来组成骨干网的核心部分,波分复用(WDM)光网络的研究动态受到广泛的关注。虽然WDM网络可以通过波分复用技术极大地提高网络带宽,但是与其上所承载业务需求量的爆炸式增
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果
在一些机器学习任务中,收集训练样本的代价很大而资源是有限的,因此以有限的资源收集高质量的样本是至关重要的。通常情况下,随机抽取的样本被假设服从独立同分布。然而,主动