基于CUPTI接口的GPU程序负载特征分析

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:stieyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于GPU加速设备的高性能计算机已经成为目前高性能计算领域一个重要发展趋势.然而,在当前的GPU设备上开发高效的并行程序仍然是一件非常复杂的事情.针对这一问题,本文首先总结了影响GPU程序性能的几个关键性能指标.然后,采用NVIDIA公司提供的CUPTI底层接口,设计并实现了一套GPU程序性能分析工具集,该工具集可以有效地分析GPU程序的性能行为.最后,本文采用该工具集对著名的GPU评测程序集Rodinia中17个程序和一个真实应用程序进行了负载特征分析.总结出常见性能瓶颈的典型原因,并给出一些开发高效GPU程序的建议.
其他文献
末级Cache对于多核处理器具有至关重要的作用,研究目的是对末级Cache的结构及使用策略进行优化,以提高多核处理器的性能.以8核处理器为研究对象,提出了一种基于内核分组的Cache结构,该结构将8个内核分为4组,将末级Cache资源分为固定私有Cache,动态私有Cache以及动态共享Cache,并给出了相应的结构布局与动态划分策略,以保证尽可能小的访问延迟以及尽可能大的Cache利用率.基于全
本文提出了一种基于信息内容保护的信息安全模型.该模型利用将汉字笔画抽象为有向图的方法,设计了汉字笔画图抽象的具体方案,实现了对汉字字形结构的动态描述:建立了动态汉字字形描述库,设计了汉字字形的生成算法,实现了汉字字形的Web存储和在客户端的特征字形的输出.为汉字信息的云端存储和云端数据安全性保护提供了一种解决方案.
BH树算法的并行实现和应用是N体问题的研究热点.本研究重点以MPI和OpenMP混合编程模型实现了BH树算法的并行,并采用正交递归二分法(ORB)实现进程间的负载均衡,并行后的代码在双路CPU上获得了20.6倍的性能提升.同时,将并行后的代码移植到CPU多核和MIC的异构平台上,利用CPU和MIC协同计算、cache优化等技术进行优化,优化后的异构平台上单节点性能相当于双路CPU的1.4倍,且具有
复杂网络的可视化是复杂网络研究中的重要手段.近年来也有很多学者致力于对布局算法的改进[1],但是大多数改进算法都是只针对布局效果或计算效率的其中一个方面.随着Web2.0时代和大数据时代的来临,作为研究对象的复杂网络的规模越来越大,这对复杂网络可视化布局算法的布局效果和运算速度都提出了新的挑战,因此,本文主要研究大尺度网络如何在有限的显示面积中快速合理的显示的问题,指出较大规模的网络数据,即使压缩
本文提出了一种支持海量存储系统的高性能通信协议.链路负载均衡机制,针对链路负载情况和权重进行评价并选择:链路容错机制,结合退避算法和P坚持算法实现基于超时机制的链路监测和恹复机制,与简单超时机制相比,至少提升10%性能:消息重传确认机制,采用滑动窗口机制缓存请求信息标识符和应答消息,仅处理对系统产生影响的写操作,避免读操作产生的大量数据对内存的消耗,相比较NFS的重复请求高速缓存而言,减少缓存信息
随着数量巨大的云服务的涌现,云服务选择成为云计算领域的重要研究内容.云服务本质上是Web服务,服务选择不仅与QoS相关,也与Web服务数据的可信性相关,即与Web服务输出数据的可信性相关.本文在当前Web服务选择研究的基础上,从数据起源角度衡量Web服务输出数据的可信度,并将Web服务输出数据的可信度与QoS数据结合,提出一种基于skyline计算的Web服务选择算法,对Web服务进行筛选和评判,
作为图论经典问题之一,全源对最短路径(All PairShortest Path)问题计算图中所有顶点对之间的最短距离,在生物信息学、地理信息系统、集成电路计算机辅助设计和交通规划等领域都有重要应用.Toueg算法是基于Floyd-Warshall算法的分布式算法.本文在Pregel上实现了Toueg算法,并且针对图论问题通信量大、计算量少的特点,本文提出一种改进的Toueg算法,Communic
中国科学院地球系统模式CAS-ESM成功实现了IAP AGCM4.0与WRF的单向嵌套,但其计算时间急剧增加,并行效率有待提高.因此,本文开展了基于二维剖分对大气环流模式IAP AGCM4.0进行并行优化的工作,研究了IAP AGCM4.0通过耦合器CPL7与WRF单向嵌套的并行机制,并提出了解决METGRID并行负载不均衡问题的优化算法数值试验表明:并行优化后的IAP AGCM4.0具有较高的并
可重构多核处理器根据程序的行为特征实时地调整核的数目和大小,从而带来巨大的性能和能效优化空间.在重构计算资源以满足不同任务需求的同时,确保和优先级一致的性能(公平性)给现有的操作系统调度带来了机遇和挑战.本文在原有的基于时间片的DP调度算法和没有时间片概念的CFS调度算法基础上提出了两种性能感知的公平调度算法:PDP和PCFS调度算法.这两种调度算法既能够保证程序执行的公平性,又能够充分发挥可重构
在实现循环到流水硬件结构自动映射过程中,迭代间启动间距的自动分析技术是可重构编译器研究的难点.在现有细粒度可重构编译器中,主要采用人工输入制导语句方法控制循环并行流水硬件结构自动映射所需启动间距信息的生成,该方法只能采用固定启动间距方式对流水硬件结构进行控制,不能充分发挥并行流水硬件结构的性能,同时人工确定启动间距的方法降低了可重构计算应用的部署效率.针对细粒度可重构编译器的现状,本文提出了一种面