面向众核结构的Stencil计算并行优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:A578964735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在工业界和学术界存在着多样的众核体系结构设计,使用众核正成为构建高性能计算系统的主流方式。面向众核结构的计算是一种新型的并行计算形式,如何针对众核的微体系结构特点来对应用充分有效地实施并行,这个研究领域待解决的问题还有很多。在本文中,我们以Stencil计算为例,在GPGPU和MIC两类不同的众核体系结构上实现应用优化,并对不同优化手段和优化效果进行评测和对比分析。  Stencil计算是大量科学和工程计算的核心,我们选取Stencil计算中的典型应用RTM(逆时偏移)算法为研究对象。RTM算法当前面临着存储量、计算量庞大且飞速增长的挑战。首先我们通过分析算法流程中的瓶颈和不足,在GPU上挖掘逆时偏移算法的并行性,并面向NVIDIA GPU体系结构从算法、访存管理、指令流等多方面进行优化。实验结果表明,通过有效利用GPU的存储和计算资源,我们的优化程序在保证计算精度的前提下,在单C2050 GPU卡上相比原单CPU核算法获得超过150倍加速、相比原GPU算法实现获得超过2.5倍的加速。  我们还针对INTEL MIC(英特尔集成众核处理器)体系结构对逆时偏移算法进行优化分析。充分发挥算法的并行性、发挥向量部件特性、提升存储管理效率是影响RTM算法在MIC上性能优化的关键。我们通过逐步增加优化手段,使得逆时偏移优化程序在MIC上获得超过C2050 GPU、接近K20GPU的性能,我们还总结出面向INTEL集成众核体系结构的应用优化方法。  本文我们提出了几点以GPGPU和MIC为代表的众核体系结构上对Stencil类计算应用实施优化的通用手段,并针对不同的众核平台给出了相应的优化技巧,给其他面向众核结构开发高性能应用的工作提供一定的帮助。  
其他文献
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成
近年来,随着文本分析需求的增长,命名实体识别(Named Entity recognition,NER)研究蓬勃发展,命名实体识别任务的效果有了很大的提升,同时命名实体识别处理的文本类型和领域也越来
稀疏矩阵的应用领域广泛,典型的如网络分析、图论、解微分方程、社会关系分析、线性规划等领域。传统用于存储大型稀疏矩阵的通用存储结构主要有两种——行压缩存储格式CRS (
近年来,网络数据规模迅猛增长,网络数据的特点是来源多样,更新频繁,数据量大。网络数据中包含了大量的知识,这些知识是以实体为中心的,包括实体,实体间关系以及实体间关系的属性(如发
随着互联网的广泛应用,人们在享受信息资源所带来的巨大利益的同时,也面临着信息安全的严峻考验。互联网的迅速发展使得多方计算成为可能,随着合作计算与隐私保护越来越受到
随着云计算和移动互联网的迅猛发展,移动多媒体应用特别是移动音乐应用变得越来越普及,同时,数字音乐内容也越来越丰富。如何在海量音乐数据中快速准确地找到用户感兴趣的歌曲成
该文的工作主要集中在网络和多机系统的容错性及系统诊断两个方面。在容错性分析与设计方面,讨论了两种重要的计算机通信结构:点到点结构和多总线结构。在系统诊断方面,讨论了
近年以来,随着互联网+的提出,为了充分发挥互联网在生产要素配置的优化和集成作用,越来越多的互联网技术被应用到传统领域。虚拟化技术作为互联网云计算领域的重要分支,也被应用
互联网视频的爆炸性增长为用户提供了丰富的视频内容资源,对其进行分析处理并有效管理成为一种迫切需求。基于内容的视频拷贝检测是满足上述需求的基本手段。基于内容的视频拷
全球经济发展的同时,也带来了环境污染和能源枯竭等世界性难题,而以电动汽车为主的新能源汽车具有无污染、低噪声、能源效率高、能源来源多来化的特点,所以电动汽车是未来汽