基于Stencil算法的NVIDIA Kepler架构下的性能分析与调优

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yayagrace8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多计算密集的应用中,Stencil算法(模板计算)是耗时最多和最为重要的计算核心。随着GPU通用计算加速卡出色的计算能力、功耗控制和编程的简化,GPU加速卡在科学研究中的工作站和超级计算机中得到普遍使用,如何在GPU这样的异构设备上将Stencil算法进行性能优化和提高效率便成了一个亟待解决的关键问题。在本文中,我们选取了3D7P这个典型应用进行研究。通过对这个典型应用在Kepler架构GPU上的优化和分析,我们探讨了不同优化手段对于计算性能产生的影响。NVIDIA Kepler架构是Tesla系列服务器级GPU中最新的架构,我们研究了Tesla K20、K40、K80,基本涵盖了Kepler架构的绝大部分核心。并借助性能分析工具——nvprof,通过收集程序执行中的硬件指标和性能事件,对Stencil计算在不同优化手段下性能的差异进行了比较和分析。对于访存受限类型的3D7P程序在不同的Tesla GPU上,经过性能调优后访存带宽基本达到了对应的实际带宽峰值。本文还对嵌入式开发板NVIDIA Jetson TX1进行了研究和分析。TK1是首个在嵌入式集成了Kepler核心GPU的开发板,而TX1是TK1的升级,其集成了NVIDIA最新Maxwell架构核心,并且拥有完整的CUDA开发平台。比较TX1和Kepler GPU的性能差异对我们深入了解Kepler架构和Maxwell架构对有重要的借鉴意义。同时也为我们以后研究Maxwell架构下的服务器级GPU性能分析与调优提供了参考。
其他文献
近年来,随着越来越多的电子设备具有全球定位功能,以及基于位置的社交网络服务所提供的地点签到功能,使我们能够获得大量精确的人们移动的位置数据。通过对这些数据的分析建
非晶的形成是热力学和动力学共同作用的结果,因此从热力学和动力学方面研究非晶的形成,对探索非晶材料具有重要意义。本文以伪二元Zr2Ni-Ti2Ni体系为研究对象,Zr2Nix(Ti2Ni)1-x体系内不同组分(x=0.206,0.44,0.55,0.654,0.71,0.73,0.8和0.85),通过电弧熔炼制备各个组分的合金锭。为了使熔炼的合金锭均匀化,各个组分的合金锭在高真空退火炉中退火72 h
MGV小车是一种应用在特殊环境中的可移动式升降小车,为工业现场的安装生产提供了便利。本文从该系统的硬件设计、软件设计以及软硬件调试三方面详细的论述了MGV升降小车控制器的设计与实现。依据功能需求,MGV控制器硬件由主控制板和从板两部分组成,主控制板通过单片机对各路控制信号进行处理和反馈,它利用两位7段LED数码管来显示报警信号和当前的状态。设计独立的通信电源模块与主供电模块区分开来,通过光耦将电机
随着时代的发展,越来越多的人开始不满足于像汽车车灯这样的照明工具单纯的照明功能,希望能够赋予其更加智慧甚至是传递信息的能力。反射镜设计就能很好地解决这个问题,它研
锂离子电池作为高效的储能器件在便携式电子市场已经得到了广泛的应用,并向电动汽车,智能电网和可再生能源大规模储能体系扩展。然而地球上锂资源很少,加上锂离子电池的广泛应用,锂资源更加短缺,不适于大规模能量储存。因此开发低成本、长寿命、高安全性的新型储能器件迫在眉睫。钠与锂为同一主族元素,具有相似的电化学性质,与锂离子电池相比,钠离子电池具有成本低、资源丰富等诸多潜在优势进而最有希望替代锂离子电池。钠的
隧道施工中地质超前预警是一项很重要的环节,及时的了解前方地质信息会对施工产生很大的帮助。如果提前知道前方有地质风险,可以提前做好准备,避免出现人员伤亡和设备损坏,从而避免耽误工程进度。文章以EH引水工程超特长隧道TBM施工为背景,隧道延绵几百公里,使用十八台TBM分区间施工。到目前为止TBM投入数量世界第一,TBM单洞掘进里程世界第一。隧道跨度大,地质条件多变,传统的超前地质预警费时费力,在超特长
水声通信技术不仅在商业上对于海洋资源的勘探和开发有着重要的推动作用,对我国海洋军事实力的建设也有着极其重要的战略意义。然而,水声信道中存在的噪声干扰、多径效应、多
在城市化进程和个体化变迁不断加快的环境下,我国的社会、政治、经济、文化等各个方面都发生了巨大的变化,各种各样的社会问题不断出现对政府的管理水平提出了更大的挑战。目前,政府单方治理已经不能适应社会发展的要求,从顶层设计到基层治理都需要多方力量共同努力。社区作为基层治理最小单元,也同样急需创新治理方式。在这一独特的历史背景下,我国各地很多基层政府都大力推动“三社联动”的社区治理模式,把社区居委会、社会
学位
随着工业4.0的发展,不同种类的新型工业应用被部署到工厂中,这对工业无线技术提出了实时性和高速率的要求。然而,现有的工业无线传输技术已无法为新型工业设备提供动态变化带
图像数据的不断增加,对存储资源和带宽资源提出了更高的要求。压缩感知是一种可以突破奈奎斯特采样定理的新型采样方式,为数据的采集和存储提供了新的方向和思路,但采样数量