CPU-GPU异构系统的性能分析及优化研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wwwvvv79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,并行计算以及高性能计算高速发展,随着大规模计算以及数据密集计算对处理器处理能力的强大需求,CPU已经不能满足该需求。图形处理单元(GPU,Graphics Processing Unit)集成了成百上千个晶体管作为执行核心,并且由于GPU通用计算(GPGPU,General-Purpose Computing on Graphics Processing Unit)的飞速发展,其强大的处理能力在处理大规模计算方面具有明显的优势。因此,GPU的应用范围日益广泛,异构系统逐步发展,促使异构系统的性能优化成为研究热点。但是,GPU结构的复杂性和特殊性也给异构系统的性能优化带来了巨大的挑战。并行计算使用GPGPU,能改善系统的性能和效率。目前,有很多研究专注于改善异构系统的性能。本文围绕CPU-GPU异构系统性能优化的目标,充分分析GPU通用计算的相关技术,基于GPU体系架构,详细阐述异构系统任务分配、通信模型、负载调度、存储模型等方面的研究内容和方法,从而针对异构系统性能优化方法等方面展开研究。本文的研究内容和成果如下:(1)针对CPU-GPU异构系统在CPU和GPU上的任务分配问题,本文提出并实现了两阶段的任务分配模型。第一阶段,使用支持向量机(SVM,Support Vector Machine)进行任务预处理,SVM将任务分成两种类型CPU型和GPU型,得到两个任务集合。第二阶段,根据预处理分类所得的两个集合,提出基于数据依赖的任务分配模型和最小化时间差的任务分配模型。基于数据依赖关系任务分配模型通过多轮调整预分配给CPU和GPU的任务集来最大程度的缩短程序的执行时间。根据处理器的特征的状态以及预处理结果,并对分配集合进行多轮调整后实施实际的任务分配。该任务分配模型在具体的异构系统中实现,可以有效的提高异构系统的执行效率,提高了系统的吞吐率。最小化时间差的任务分配模型估算了CPU和GPU的执行时间,调整两个任务集,在两个任务集时间差最小的情况下实施任务分配。该模型有效的提高了任务分配效率和系统整体性能,且具有较小的分配开销。(2)对于GPU上的大规模并行负载来说,其调度策略能够严重影响系统性能。为了解决该类调度问题,本文在对负载执行调度前对相应的数据传输进行调度,针对GPU上负载提出了一个优化的调度算法。通过将数据传输最大程度的隐藏到负载执行过程中的方法,该算法能够降低等待时间。最终获得小的总调度时间。本文将数据传输隐藏到负载执行的问题归类为0-1背包问题。针对该问题提出了基于Dyer-Zemel算法的伪多项式时间算法(PPTA,Pseudo-Polynomial Time Algorithm)。然后推导出该多项式时间算法的完全多项式时间算法(FPTAS,Fully Polynomial-Time Algorithm Scheme)。该调度算法能够对GPU上大规模负载估算出有效的最优调度序列,有效降低处理核心的空转时间,很好的解决了调度问题,优化了系统性能。(3)大量的访问全局存储器可能会导致GPU核函数严重的瓶颈。拥塞的全局存储器访问会导致低吞吐量和较差的性能。本文综合分析GPU相关存储器的基本特征:访存的地址分布率,SM(Stream Multiprocessor)和全局存储器之间的带宽利用率,合并访存率,计算指令与访存指令比率,读指令和写指令的比率。基于这些特征指标我们设计了一个访问全局存储器的拥塞判定模型。该模型能够针对访问全局存储器产生的拥塞程度进行分类。然后使用基于蛛网的灰靶决策模型来缓解拥塞。实验结果表明,本文提出的全局存储器拥塞缓解模型能够在一定程度上缓解访存拥塞,提高全局存储器的访问效率和吞吐率,从而提高了系统性能。
其他文献
互联网在全球的大规模覆盖使得人们的生活越来越方便。尽管其影响深远,网络纵向一体化(网络控制和数据转发捆绑在一起)的结构导致运营商对于大规模网络参数的配置以及协议部署、修改、测试都变得极其困难,严重阻碍了互联网的创新与发展。此外,为了满足用户服务需求的多样化和服务质量的高要求,网络中大量部署了各种不兼容、封闭且异构的专用硬件设备用于实现各类网络功能,这些专用硬件又被称之为中间盒子(middle-bo
深度学习以其强大的特征学习能力和表征能力在图像分类任务中发挥着越来越重要的作用,大量深度分类网络不断被提出,但深度分类网络深受数据集和网络模型的影响,存在消耗庞大计算资源的问题,因此对深度分类网络的结构优化研究是一个十分有意义的课题。提升深度网络的性能、减少对计算资源的消耗而设计更轻量级的网络模块,是近年来学者们关注的研究热点。目前,深度分类网络面临着以下的研究问题:如何缓解网络中的深度和宽度冗余
在信息智能化高速发展的今天,“物联网”(Internet of Things,Io T)已经遍布生活的每一个角落,物联网的发展水平很大程度上取决于传感以及电源供给技术的发展,其中所涉及的共性技术便是换能技术。传统的换能技术包括电磁换能、压电换能、驻极体换能以及介电弹性体换能等,然而随着物联网的快速发展,一些应用场景对传感器性能及其能量供给提出了新需求,比如柔性传感、柔性存储及小型化、轻质器件和系统
论文针对煤矿井下煤层注气驱替瓦斯消突这一瓦斯治理技术,从安全生产指导意义的高度出发,围绕煤层注气驱替瓦斯促排、消突机理及残存压力场效应等关键技术问题,采用理论分析、实验室物理相似模拟、现场试验验证等相结合的方法,深入研究煤层注气过程中置换和驱替作用的定量贡献及主导因素,剖析煤层注气条件下的置换/驱替作用机制和相互关系,揭示煤层注气过程中及泄压后的压力场分布规律,揭示了井下注气驱替煤层瓦斯消突机理,
研究一:创伤性颞下颌关节强直分型提出及71例创伤性颞下颌关节强直临床特点的回顾性研究目的:提出基于CT影像的创伤性颞下颌关节强直改良分型及分型手术治疗方案;回顾分析各类型强直的临床特点及预后。方法:纳入71例94侧创伤性关节强直患者,基于冠状CT显示的骨融合表现和透射带特点,将关节强直分为四型:Ⅰ型为非骨性融合;Ⅱ型为部分骨性融合伴内移位髁突(假关节);Ⅲa型为完全骨性融合,骨球内存在透射带;Ⅲb
空间选址是实体零售商竞争的重要决策,对城市发展以及空间结构的变化起到至关重要的作用。然而,电子商务的蓬勃发展使网络零售成为当前零售业的重要部分。但是,网络零售商的膨胀式发展,一定程度上导致实体零售业出现大规模闭店现象,其实质是实体零售商的再选址。实体零售商作为城市发展的有机组成部分,再选址不仅影响城市空间结构,更关系到实体经济发展的国家战略。此外,为了应对网络零售的冲击,实体零售商纷纷选择跨渠道竞
面对日益复杂多变的竞争环境,已有越来越多的企业将创新作为驱动企业成长的重要引擎。而要实现创新,除依靠管理者的智慧外,更离不开广大员工的积极参与。基于此,以改变自身或环境为目的,具有自发性和未来导向特征的组织公民行为便引发了学者们广泛的研究兴趣,并取得了较为丰富的研究成果。通过文献梳理不难发现,现有研究大多以静态模型作为组织公民行为研究的基础。虽然静态模型能够解释在某一时间点为什么一些员工相较于其他
肝癌在我国的致死率和发病率居高不下,早期肝癌患者即使得到及时的诊断治疗后,仍然存在较高的复发率,而对于已经是中晚期的肝癌患者来说,预后情况更加严峻,根据肝癌细胞扩散的部位,预后效果略有差异,如果扩散到周边淋巴结,肝癌患者的5年生存率能有11%,然而,当癌细胞扩散到其他的器官后,患者的5年生存率仅有3%。肝癌患者的生活质量受到严重影响,但是目前我们对于肝癌的有效治疗手段还显得十分有限。随着研究技术的
随着世界人口的持续增长、经济的迅猛发展以及科技的日新月异,人类社会对能源的需求可谓成爆发性增加。在开发替代传统不可再生化石燃料的清洁能源的同时,亟需开发相应的高性能、安全、长寿命存储体系。金属锂具有极高的理论比容量(3860 m Ah·g-1)、最低的电极电势(相对于标准氢电极为-3.04 V)以及最轻的质量(0.534 g·cm-3)。以金属锂为负极,硫为正极的锂硫电池以极高的理论比容量(167
本文系统地对国内外公路信息管理平台及BIM技术的发展现状进行总结并阐述了当前存在的问题,针对基于BIM技术和公路工程养护管理系统的特点,提出了基于BIM+GIS技术与公路养护管理系统融合的技术框架和需求分析,研究了BIM模型的编码规则,建议了基于BIM模型的全生命周期演变展示内容等,解决了当前公路养护管理平台与BIM技术的系统开发融合问题。