压缩存储Page Walk Cache的设计与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:evil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能科学和大规模科学计算的高速发展,计算机软件对硬件计算能力的要求越来越高。目前许多计算机都采用GPU+CPU异构体系结构来提升性能。随着需要处理的数据量逐渐增加,应用程序对GPU的内存容量需求也越来越高,迫切需要引入虚拟地址空间来增加GPU内存的利用率。GPU+CPU异构体系结构的编址方式经历了独立内存空间、统一虚拟地址、统一内存空间的发展过程。GPU中引入统一内存空间,可以在运行时将程序和数据按需分段装入内存。这不仅在逻辑上扩大了GPU的内存容量,还有利于实现多个程序高度并发执行,提高内存中代码的利用率。但是,引入统一内存空间之后,GPU访问内存时需要增加额外的虚实地址转换步骤。当前GPGPU采用SIMT执行模式,按照warp组织线程。每当执行一条load/store指令时,32个线程同时发出32个不同的虚实地址转换请求,导致GPU快表的命中率大幅降低,需要借助Page Walk Cache(PWC)部件降低访问页表的次数。主流的PWC要么以保存许多重复信息为代价实现虚拟地址的4~2级索引并行查找,提高查询速度;要么通过串行查找4~2级索引来消除重复信息,增加PWC容量。在PWC查找时间和命中率上,二者不可兼得。本文针对上述问题进行了研究,主要工作有如下三点:(1)本文分析了多个GPGPU应用程序执行过程时,整个生命周期内虚拟地址流的局部性特征,测试使用的GPGPU开启统一内存空间。我们发现虚拟地址的4级和3级索引是导致PWC中信息冗余的原因,2级索引是导致PWC命中率低的原因,而1级索引是导致GPU快表命中率低的原因。(2)本文针对(1)中的分析结果和主流PWC结构中存在的问题,提出了一种树形结构PWC:压缩存储Page Walk Cache(Compressed Page Walk Cache,CPWC)。它可以在保留虚拟地址4~2级索引并行查找的前提下消除PWC中的重复信息。(3)本文针对树形PWC结构,提出了CPWC中虚实地址转换信息的写入、读取和更新规则,以便于充分发挥CPWC的全部性能。该规则对程序员和操作系统透明,且只需要修改少量硬件即可实现。本文采用Translation-Path Cache(TPC)结构作为基准,与CPWC的性能进行了对比。实验表明,在存储空间开销几乎相同的情况下,与TPC相比CPWC可以获得平均25.3%的IPC提升,有效提高了GPU中虚实地址转换的吞吐量。
其他文献
随着社会经济的不断发展,人们的生活水平和收入不断提高,使得文旅经济也在蓬勃发展。山东省青岛市自然资源和人文资源丰富,文旅产业潜力巨大,但是由于国内外市场经济发展逐步放缓、国内旅游市场的竞争愈加激烈和青岛文旅产业本身发展存在的问题,导致青岛整体文旅产业处于瓶颈期,突破瓶颈状态的重点在于文化资源的重新整合和文旅品牌的重新塑造,打造全新的文旅产业竞争优势,实现品牌价值的再提升。本论文在文旅融合的视角下对
学位
近年来,数据中心的数量和规模越来越大,导致数据中心的能耗大幅增长,这会造成一系列经济和环境问题。IT设备能耗是数据中心的主要能耗之一,其中服务器能耗占比最高,因此降低服务器能耗有助于数据中心节能。对服务器进行能耗预测,可以辅助数据中心基于能耗实施调度策略,降低数据中心能耗。本文从时间序列分析的角度出发,对数据中心能耗预测问题进行了深入研究,提高了预测模型的精度。本文将服务器的能耗预测问题转化时间序
学位
新型冠状病毒肺炎疫情爆发后(以下简称为新冠肺炎疫情或疫情),深刻影响着大学生的思想情感、生活方式。危机中孕育着新机,党中央带领全国人民同心抗疫的伟大实践极大充实了大学生思想政治教育工作的内容,凸显出深刻的导向价值、教育价值和激励价值。习近平总书记强调,新时代高校思想政治工作必须与时俱进,不断创新工作方法,增强高校思想政治工作的时代感和吸引力,提高思想政治教育针对性和亲和力。只有结合抗击新冠肺炎疫情
学位
近年来,云计算技术的发展十分迅猛,按需支付的商业模式和个性化的计算需求使得工作流调度中的现有的计算资源规划面临巨大的挑战。因此,研究人员致力于引入元启发式调度算法去缓解资源利用率差的现象,大多数研究人员主要关注任务的负载均衡,以达到产生更加高效的计算资源利用的目标。然而,这种仅关注一种目标的情况将增加具有较大规模的任务的执行时间,从而导致其调度效率低下。目前市面上的大多数调度算法也是仅关注一种目标
学位
近年来,针对硬件的攻击如冷启动攻击这类针对嵌入式计算设备中内存的攻击不断出现,严重威胁嵌入式计算设备的安全。在这类攻击中,攻击者利用特殊工具对嵌入式计算设备的内存进行物理访问,就能获取到内存中的秘密数据。为此,本文提出一种基于物理不可克隆函数(PUF)的安全存储结构。该结构利用PUF为加密算法生成安全密钥,并针对嵌入式微处理器具体应用进行结构优化,从而使嵌入式微处理器能够抵抗多种针对内存的物理攻击
学位
近年来,随着大数据的发展,GPU应用的数据集规模急剧增加,这对GPU的处理能力提出了挑战。由于摩尔定律即将达到极限,提升单一GPU的性能变得越发困难,而多GPU系统通过提升GPU处理器级的并行性,成为应对该挑战的一种解决方案。GPU制造商对内存虚拟化的支持进一步简化了多GPU系统的编程,提升了资源利用率。内存虚拟化需要地址转换的支持,现阶段的研究表明,地址转换请求若未在TLB命中,会引起页漫游导致
学位
在篮球比赛中,罚球是一项极为重要的得分方式,罚球往往能够改变比赛的走向甚至能够决定比赛的输赢。近些年来,球队对于罚球技术的训练逐渐规范化,通过聘请专业的投篮教练对运动员进行罚球指导,但是传统罚球分析都是基于视觉或者传感器对训练中的运动员进行分析,这种方式费时又费力,且很难对实际比赛中球员罚球的状态做出准确且稳定的预测。本文对目标检测以及人体姿态估计算法进行了研究,通过深度学习的视频分析技术为罚篮命
学位
职业教育作为教育体系中的重要组成部分,为我国经济社会发展和脱贫攻坚工作培养了许多掌握现代化技能的高素质人才,特别是民族地区的职业教育,已成为补齐民族地区教育短板、促进教育公平的重要方式。四川省“9+3”免费教育计划(下文简称为“9+3”计划)正是为了推动民族地区经济与社会发展和实现长治久安而提出的,自2009年实施以来,惠及到许多贫困的农牧民家庭,促进学生所在农牧民家庭脱贫致富,为四川省民族地区培
学位
计算流体力学(Computational Fluid Dynamics,CFD)是一门采用数值计算方法求解流体运动控制方程,以研究流体运动相关问题的交叉学科。当前,CFD已广泛应用于航天航空、汽车、船舶、能源、化工等领域。CFD的发展及其应用很大程度上得益于计算能力的提高,在高性能计算体系结构上对CFD应用程序进行并行化与性能优化有重要意义。近年来,随着图形处理器(Graphics Process
学位
在当今时代的边境治理主体中,原本以地方边防部门的多元治理为主,随着对党政军警民五位一体的时代需求,将“民”这一边民群众吸纳进多元主体参与治边。护边员作为群众性力量在陆地边境越来越受到国家和社会各界的关注,边民的主体地位在陆地边境有着自身的价值和意义,是以“民”为角色的边民群众融合边防系统的主体进行联防联控的群防群治力量,在党政军警民体系中可进一步实现合力强边固防的目标。因此基于一定实证性的个案研究
学位