CPU-GPGPU异构多核平台下适应warp调度特征的LLC预取机制

来源 :浙江大学 | 被引量 : 0次 | 上传用户:windy_yuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CUDA编程模型的引入大大地推动了GPGPU在通用计算领域的发展,异构CPU和GPU协同工作,在程序运行过程中,两者存在着大量的数据交互。为了提高双方的数据交换的效率,早期的研究者们提出在CPU和GPU之间设立共享最后一级cache,LLC。实验中我们发现,很多GPGPU程序的访存模式呈流式模式,对于此类程序,LLC的性能会很差。我们测试了Rodinia和CUDA sdk中的部分程序,发现除了数据集较小的个别程序,其他的LLC miss率均达到30%以上,个别甚至超过99%。另外我们利用功能模拟调节程序中的LLC miss率后发现,随着LLC的hit率的提升,整个系统的IPC具有较大程度的提高。  预取手段和其他缓存优化手段相比可以较大程度地提升LLC的hit率,其效果主要由预取的准确度决定。GPGPU中同一kernel下的所有线程均共享同一套指令,线程中的访存地址仅由kernel中的访存基址和线程号决定,因此GPU上的对访存地址的预测仅需预测将要被调度到的线程的线程号,这比在CMP上的预取要精确得多。现有对GPGPU的预取主要集中于线程内部的预取以及跨越线程的预取,但GPGPU在运行过程中所有的线程是以warp为单位进行组织和调度的,单以线程为单位进行预取的准确度和效率均不高。  本文提出一种能够适应warp调度特征的预取策略,WAP(Warp AwarePrefetching),以warp为单位进行预取可以在运行时使得预取的地址和程序中warp的地址簇相适应,符合GPGPU程序的访存规律,有效的降低当前的访存处理延迟。本文将预取功能模块分为两大块,其一是在流多处理器,SM端的监测以及预取发起模块;其二是全局的预取仲裁合并模块。  在SM端,首先我们设计了一种线程预处理器,获得kernel程序中的访存点的位置以及访存点间的时间间隔。其次为了能够更好地量化和监测程序运行时warp的状态,我们提出使用当前活动warp比率,CAWR(Current Active Warp Ratio)作为评判访存是否拥挤的标志,并设立阈值确定决定当前的能否发起预取,当访存空闲时发出预取请求,并根据当前的访存处理延时以及预取处理延迟确定预取的目标访存点。最后为了能更好地适应程序的执行环境,我们提出了一种自适应的方式有效地确定当前的预取阈值。  已有对GPGPU预取的工作中发现GPGPU中由于线程数量较为庞大,预取请求极易容易造成访存端口的堵塞。为了避免这种情况,保证预取请求不影响程序的原本访存性能,本文提出在全局设立预取器。全局预取器根据当前访存的繁忙程度控制向访存控制器发出请求的带宽,并使用一种较为公平的预取调度算法,按照尽可能公平的方式调度已有的预取请求。另外对于来自不同SM但相同地址块引用的数据,预取器还具备预取请求归并机制,减少发起预取请求的数量。  为了验证本文的预取策略,本文实现了WAP预取策略,并与当前已有基于多线程的预取方法MAP进行对比。数据表明本文提出的WAP的LLC命中率与MAP相比具有11.8%的性能提升,WAP的IPC与MAP相比具有11.39%的性能提升。而额外引入的硬件模块实现功能具有较为简单的逻辑性,其造成的额外代价均在可接受范围之内。实验证明本文提出的WAP预取策略能够更好地适应GPGPU的程序执行特征,可带来较好的LLC性能提升和系统IPC性能提升。
其他文献
IPv6也被称为下一代网际协议(Next Generation Internet Protocol,IPNG)。它是网络技术史上重要的升级之一。它将慢慢取代IPv4成为因特网络的基础设施,并且将对网络产生积极
数字音像内容集成管理平台(NNM管理系统)是基于C/S模式的、在内容运营商系统中实现对音像内容管理、查询和维护的平台。对于运营商来说,它是对分布式资源网络中所拥有的音像
目前我国正在处于信息化建设的时代,各部门和各单位都组建了各自的网络系统,这些网络主要包括无线传感器网、以太网、自组网等。然而这些异构网络系统种类繁多、接口各异,因
文景转换系统,主要分成三个模块:抽取自然语言脚本模块、自然语言脚本生成动画脚本模块、动画生成模块。本文是该项目从自然语言到动画的中间过渡模块。本文的研究任务是从自
网络的普及和发展给语言学习和语言测试提供了前所未有的机遇和发展空间。随着客观题测试技术的日趋完善,主观题的自动测评让语言测试者备感兴趣,同时也给语言测试带来了新的挑
游戏引擎的重要性越来越明显,在一个开发完成的引擎上只需要添加足够的游戏内容,游戏就可以短时间内运行起来。在3D游戏引擎中渲染引擎部分是最重要的,具有很强的重用性、独立性
随着包括化学情报学、生物信息学、计算机视觉、视频索引、文本检索以及Web分析在内的广泛应用,图做为一种一般的数据结构在复杂结构和它们之间相互作用建模过程中变得越来越
网格环境使工作流流程需要跨组织执行,从而使传统的工作流技术在网格中应用面临着许多问题,尤其是网格工作流的调度问题,它影响着网格工作流执行成功与否及效率的高低。同时,
生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。如何提高蛋白质分类的精确性,或在保证精
汽车示波器的诞生,为汽车维修人员快速诊断汽车电子设备和点火系统故障提供了一个有力的工具。目前,国内汽车专用示波器市场几乎全被国外厂商占领,高昂的价格阻碍了汽车专用示波器在汽车修理过程中的广泛应用,这严重阻碍了我国汽车修理业的发展。因此对汽车专用示波器的研究和设计具有十分重要的意义。本文主要目的是设计出一款能够普及使用的手持式汽车专用示波器,该示波器特点为采用液晶显示、重量轻、操作使用方便;其功能包