面向GPU计算平台的若干并行优化关键技术研究

来源 :中国海洋大学 | 被引量 : 16次 | 上传用户：tyftyf123

【摘要】

：

随着计算能力和可编程性的不断增强,GPU被越来越多的应用开发人员用作性能加速器以提高程序性能。然而,如果没有经过精心优化,很难在GPU上实现理想性能。这是因为GPU程序的优

【作者】

：

贾海鹏

【出处】

：

中国海洋大学

【发表日期】

：

2012年01期

【关键词】

：

GPU 性能优化链 GPURoofline 粗粒度并行本地和全局队列

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算能力和可编程性的不断增强,GPU被越来越多的应用开发人员用作性能加速器以提高程序性能。然而,如果没有经过精心优化,很难在GPU上实现理想性能。这是因为GPU程序的优化工作已经从硬件设计者转移到应用开发人员手中。而GPU程序的性能优化是一个非常困难的过程,其实质是实现算法特性向底层硬件特征的高效映射。一方面这个过程需要对GPU底层硬件有着深入的认识,而现代GPU架构的日益多样性,无疑加剧了本已困难的优化工作；另一方面,移植到GPU上的应用的程序特性也日益多样化,从整体上看,这些应用可分为规则应用和非规则应用两大类。不同的程序特性在不同硬件架构上具有不同的优化方法和策略。为简化GPU程序的性能优化工作,使应用开发人员能够更加容易的实现高性能GPU程序。针对不同的应用特点,本文的主要工作可分为两部分：针对规则应用,我们提出性能优化链的概念,并根据GPU计算和访存的特点,将性能优化链划分为绝对性能优化链和相对性能优化链两类。通过引入Roofline模型,实现了性能优化链的可视化,建立了针对特定硬件平台的可视化GPU程序性能优化指导模型：GPURoofline。该模型可通过提供性能信息来确定GPU程序在特定硬件平台上的性能瓶颈以及应选择的优化策略和方法,以此来指导应用开发人员特别是对GPU底层架构不熟悉的应用开发人员更加容易的实现高性能GPU程序。本文通过三个具有不同计算密度和程序特性的典型应用验证了GPURoofline模型的可用性和正确性。针对非规则应用,以Viola-Jones人脸检测算法为例,引入了非规则应用在GPU上实现和优化的五大关键技术：粗粒度并行、Uberkernel、Persistent Kernel、本地队列和全局队列。并通过性能特征参数的定义和抽取,完成了可调优GPUkernel的初步实现,并以此实现了Viola-Jones人脸检测算法在不同GPU平台上的性能移植。实验表明,经过优化的Viola-Jones人脸检测算法比OpenCV库中同样经过精心优化的CPU版本在AMD HD5850GPU、AMD HD7970GPU和NVIDIA C2050GPU三个GPU平台上分别达到了5.19～27.724、6.468-35.080和5.850～28.768的性能提升。本文的创新点如下：(1)分析和比较当前主流GPU架构的异同,提出了GPU程序性能优化的三大有效途径：提高片外带宽利用率,提高计算资源利用率和数据本地化。(2)提出算法计算密度和硬件计算密度两个概念,并通过这两个概念的比较将GPU kernel分为访存密集型和计算密集型两大类。提出并构建针对特定硬件平台的性能优化链。并根据访存和计算优化的特点,将性能优化链划分为绝对性能优化链和相对性能优化链两类。(3)构建完成了一个可视化的GPU性能指导模型：GPURoofline.通过引入Roofline模型实现了性能优化链的可视化,以一种更加直观的形式指导GPU程序的优化。(4)引入非规则应用在GPU实现和优化的五大方法和策略：粗粒度并行、Uberkernel、Persist Thread、本地队列和全局队列。并通过Viola-Jones人脸检测算法说明了这五种方法的具体应用方式。最后,通过对性能参数的定义和抽取,初步完成了可调优kernel的实现,验证了在不同GPU硬件平台间实现性能移植的可能性。

其他文献

盛灿若治疗横纹肌溶解症经验撷英

本文介绍全国名老中医盛灿若教授辨治横纹肌溶解症经验。盛教授认为,临证诊疗横纹肌溶解症应衷中参西、察明病因、针药结合、分期论治,且重视未病先防、既病防变。盛教授对横

期刊

名医经验盛灿若横纹肌溶解症针刺中医药疗法experience of famous doctorsSheng Canruorhabdomyolysisa

基于单片机的智能百宝箱设计与实现

人们生活水平日渐提升,对生活品质的追求也日益提高,智能玩具等的应用越来越广泛。基于单片机的智能百宝箱利用蓝牙通信将手机和单片机控制的百宝箱进行连接,实现了利用手机

期刊

单片机智能箱蓝牙single chip microcomputersmart homeBluetooth

基于PEDV S重组蛋白间接ELISA抗体检测方法的建立与单克隆抗体的制备

猪流行性腹泻（Porcine epidemic diarrhea, PED）是由猪流行性腹泻病毒（Porcineepidemic diarrhea virus, PEDV）引起的，以猪呕吐、严重腹泻脱水为主要临床症状特征的高度接触性传染

学位

PEDVS基因原核表达ELISA单克隆抗体

医药类高职院校学生药德教育探索

药德，是药学职业道德的简称，指药学从业人员在药学实践中正确处理与患者、与服务对象、与社会的关系及药学人员同仁之间关系的根本原则和行为规范。医药行业是关系到千千万万人

学位

医药类高职院校学生药德教育

欠发达地区人力资源流动对经济增长影响的实证研究

鉴于近年来欠发达地区人力资源流动对经济增长影响的问题日趋显著，人力资源流动对经济增长影响的问题不仅仅是一个经济问题，在更大程度上成了一个社会问题。所以研究欠发达地区

学位

欠发达地区人力资源流动经济增长

美国《保健物理》(Health Physics)杂志英文摘要(2020年119卷第1期)

期刊

论板材矫直机压痕的形成及处理

近年来,随着我国宏观社会经济发展,各领域建设加速,材料供应市场日臻火热,其行业竞争亦是愈演愈烈。在这样的环境背景下,板材的产量不断提高,且逐步衍生出了一些新品种,而客

期刊

板材矫直机压痕

粤港澳大湾区智慧城市发展的问题与对策——基于世界三大湾区的经验分析

与世界三大一流湾区相比,粤港澳大湾区在智慧城市发展策略方面仍具有一定差距。本文结合世界三大湾区经验及粤港澳大湾区智慧城市发展方面存在的问题,在推进公共无线网络建设与布局、加强智慧城市建设的问题与需求导向、全面深入推进智慧社区建设、创新智慧城市建设运营模式等方面提供了相应的对策建议。

期刊

智慧城市粤港澳大湾区智慧社区smart citythe Guangdong-Hong Kong-Macao Greater Bay Areasmart c

铁皮石斛养胃祛萎合剂对胃黏膜肠化的影响

目的:分析讨论对胃黏膜肠化患者使用铁皮石斛养胃祛萎合剂治疗的具体效果和实际价值。方法:回顾性分析本院2013年1月-2018年12月胃黏膜肠化患者204例,由随机数字表法分为两组

期刊

铁皮石斛养胃祛萎合剂胃黏膜肠化应用价值总有效率The Tiepishihu Yangwei Quwei mixtureIntestinal metath

产业化视角下广西民族传统体育的开发与发展路径研究

广西位于我国西南部,是少数民族聚集较多的省份之一,由于其独特的地理条件以及人文环境,使得广西的民族传统体育资源十分丰富。通过对产业化视角下广西民族传统体育的开发与

期刊

产业化视角下广西民族传统体育开发发展路径

面向GPU计算平台的若干并行优化关键技术研究

与本文相关的学术论文