高效能GPGPU体系结构关键技术研究

被引量 : 0次 | 上传用户:lijb2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工艺技术的进步和应用需求的变迁,驱动着处理器体系结构不断地革新。线程级并行(TLP,Thread Level Parallelism)和数据级并行(DLP,Data Level Parallelism)逐渐取代指令级并行(ILP,Instruction Level Parallelism)成为体系结构研究的重点。通用图形处理器(GPGPU,General Purpose Graphic Processing Unit)体系结构则是在多核和众核研究趋势下,集成大量并行计算资源深度挖掘TLP和DLP、面向吞吐率的设计。GPGPU采用层次式组织方式并发执行大规模线程,同时提供传统Cache层次和分布式便签存储器以支持多模式访存,从而能够很好地满足高性能计算和科学计算领域中应用对大规模并行计算的迫切需求。随着GPGPU在高性能计算和科学计算领域中的广泛应用,目前GPGPU面临着新的挑战,如资源利用率低、功耗高以及可靠性低等问题。而相关领域的研究仍处于初步阶段,有很多关键技术值得探索和研究。本文深入研究了GPGPU的体系结构和相关开发平台,在此基础上着重研究了GPGPU的应用映射和性能优化技术、资源优化配置策略、负载均衡策略、体系结构级功耗模型、并行容错算法设计以及存储部件低开销容错设计等方面。本文的工作和创新主要体现在:1.提出了GPGPU体系结构中计算资源与访存带宽间的优化配置策略。GPGPU在片上集成了大量的并行计算资源,需要前端总线提供高访存带宽以满足计算资源对数据的需求。本文使用GPGPU性能模拟器对GPGPU体系结构中的计算资源和存储控制器之间的配置比例进行对比实验,并分析配置比例对程序性能的影响。基于实验分析结果,采用粗粒度的配置比例组合对具有不同访存特征的测试程序集进行测试。结果表明,针对不同应用程序的计算访存特征,选择最优的计算资源和带宽比例,能够实现应用在GPGPU平台上的高效加速方案。2.提出了一种基于流计算的系统级任务划分负载均衡策略。GPGPU提供了丰富的存储资源和灵活的存储层次以支持多种访存模式并缓解前端总线带宽负载。本文系统性地研究了GPGPU上的负载均衡优化策略。首先,为提高计算访存比、增加数据重用度以减少片外访存,在计算kernel级采用循环展开和预取策略调整程序执行控制流。其次,将GPGPU负责执行的任务划分为多个并行流以隐藏数据传输开销。最后,从系统级任务划分角度出发,将应用划分为不同任务,在系统中的不同计算设备上并行执行,并根据各设备实际计算能力,提取最佳的划分因子。基于以上工作,提出基于流计算的系统级任务划分策略。3.实现了高性能Linpack在GPGPU上的应用映射和加速。高性能Linpack(HPL,High Performance Linpack)是衡量超级计算机能力的最重要标准之一。矩阵乘算法和LU分解算法是HPL的关键部分,其中矩阵乘计算占整个计算的绝大部分比例。本文对HPL源代码中的矩阵乘函数调用进行封装,通过任务划分实现矩阵乘算法在CPU和GPGPU上的并行计算,并对在GPGPU上运行的任务采用循环展开、预取以及流化等优化手段隐藏计算的全局访存延时和CPU-GPGPU间的数据传输开销。根据系统中设备实际执行性能调整任务划分因子、矩阵规模以及分块大小等关键参数,获得了应用在异构系统中的执行性能峰值。4.提出了基于功耗经验值的体系结构级GPGPU功耗模型。尽管GPGPU在很多通用计算领域中的效能远高于通用CPU,但其高功耗仍会带来芯片制造及冷却成本上升、系统运行成本增加以及稳定性降低等问题。本文研究了当前GPGPU效能和功耗评估的手段和方法,深入分析对比了各种功耗评估策略的优缺点。基于功耗经验数据,对抽象的GPGPU微体系结构进行体系结构级功耗建模,实现了功耗模块在GPGPU性能模拟器中的融合,并对功耗模型进行了验证。5.提出了GPGPU并行容错算法设计模式。由于图形计算本身具有容错特征,因此传统GPU并未考虑可靠性设计和容错机制。然而科学计算领域中的应用对系统的可靠性要求很高,可靠性问题制约着GPGPU在通用计算领域中的应用和发展。本文根据GPGPU硬件资源冗余和执行线程采用层次式组织的特点,提出并实现了简单冗余计算容错模式、基于并行检错的冗余计算容错模式、基于任务划分的线程块级并行容错以及基于流计算模式的冗余计算容错等检错机制。在保证可靠性的前提下,充分利用GPGPU片上计算资源,减少并行容错带来的数据传输操作和数据传输延时。6.提出了一种针对存储部件的低开销容错设计方法。体系结构弱点因子(AVF,Architectural Vulnerability Factor)是最常用的处理器可靠性评估指标之一,具有明显的动态变化特性。AVF-aware动态容错管理机制是根据AVF的变化来动态选择是否对处理器部件进行容错保护,从而在满足软错误可靠性要求的前提下最小化了容错设计带来的开销。本文提出使用基于贝叶斯累加回归树BART(Bayesian Additive Regression Trees)模型的存储部件AVF预测模型,并将该模型融入到GPGPU的AVF-aware ECC动态容错机制中。该动态容错技术基于部件的实时AVF值,选择是否开启或关闭ECC保护,在满足可靠性要求的前提下有效降低了ECC带来的功耗开销,兼顾了程序运行的性能、功耗和可靠性。
其他文献
分子发光分析法包括荧光分析法、化学发光分析法、磷光分析法等。荧光分析法具有灵敏度高,检测限较低,线性范围宽等优点,广泛应用在灵敏度和准确度要求较高的微量和痕量药物
电力工业是关系国计民生的基础产业,超、特高压直流输电不仅可以实现超远距离、超大容量和低线路损耗的输电,便于调节,更适宜大能源基地向远方负荷中心送电,而且提高了能源的开发
本文主要针对房地产企业跨区域发展进行了研究。首先对房地产企业跨区域发展的原因、历程及现状进行了研究;其次,对房地产企业跨区域发展模式与运营管理进行研究;最后,选择甲
随着航运事业的不断发展,因船舶烟气中二氧化硫排放造成的污染日益严重。为满足国际海事组织(IMO)对水上航运环境的严格要求,船舶烟气脱硫技术的研究倍受人们关注。而船舶脱
新世纪新阶段,胡锦涛主席总揽西藏发展稳定大局,要求西藏各级干部群众谋长久之策、行固本之举,筑牢反对分裂、维护祖国统一的坚固长城,推进西藏从基本稳定走向长治久安。驻藏
辣椒(Capsicum annuum L.)是一种原产于拉丁美洲的一年或多年生茄科草本植物。在不同成熟时期辣椒所含色素物质不同,未成熟时呈绿色色泽的辣椒称为青辣椒。青辣椒制品因其独
创新创业教育始于20世纪50年代的美国,经过几十载的发展,已形成较为完善的体系。纵观全球,美、德、英、日等国在大学生创新创业教育上取得了丰硕成果,其主要体现在:创业教育
<正> 转录因子是一类能与特异性DNA序列结合并调节基因转录的蛋白质因子。根据与DNA结合位点的不同和是否受环境因素(如生长因子和促细咆分裂剂等)的调节,转录因子可分为通用
我国三大西湖之一的广东惠州西湖不但是具有岭南特色的风景名胜区,而且是我国文人写意自然山水风景名胜区的代表之一,具有很深厚的人文底蕴和历史价值。本文借助古籍文献如史
羊肚菌(Morchella esculenta )不仅营养丰富,味美可口,而且具有极高的药用价值,可治疗多种胃肠疾病,提高人体免疫力等,是一种亟待开发的珍贵食用及药用真菌。本论文系统地研究