CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：jianlovepan

【摘要】

：

随着CPU和GPGPU在各种环境下得到应用,人们逐渐发现这两个处理器各自的独特优势。为了实现优势互补并支持更广泛的场景,由CPU和GPGPU组成的异构多处理器系统受到关注。其中CP

【作者】

：

俞立呈

【出处】

：

浙江大学

【发表日期】

：

2004年期

【关键词】

：

异构多处理器共享最后一级缓存访存优化 GPGPU

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着CPU和GPGPU在各种环境下得到应用,人们逐渐发现这两个处理器各自的独特优势。为了实现优势互补并支持更广泛的场景,由CPU和GPGPU组成的异构多处理器系统受到关注。其中CPU和GPGPU共享最后一级缓存(LLC)的片上紧耦合系统能实现更细粒度的交互。然而简单地将CPU和GPGPU连接到共享LLC时两种处理器在访存行为上的差异性导致数据共享效率受限,并不能充分发挥异构多处理器系统的计算能力。本文首先分析了 CPU和GPGPU使用共享LLC进行数据交换时的访存特征。发现简单的缓存替换策略并不能提供最高的数据交换效率,会产生缓存抖动问题,中间暂存数据被写入内存也会引入不必要的内存事务并浪费了内存带宽。此外传统的交互模式往往造成一方处理器空闲等待对方提供数据,无法有效地实现数据生成和计算的重叠。为了解决这些问题,本文提出使用固定大小的元素作为数据交换单位,并在LLC中实现硬件管理的共享数据队列以支持基于元素的数据共享。进一步提出元素-原子的数据组织方式以移除元素大小限制,配合访问协议支持GPGPU大规模乱序访问。同时还使用后备存储避免死锁同时保持访问低延迟,并在共享数据队列中实现了低代价的全局同步。在使用传统LLC进行数据交换时,本文发现CPU和GPGPU的算法常常偏好不同的最优数据存储布局以满足各自不同的局部性,导致数据存储布局冲突。已有的转换方法会污染转换处理器的缓存、引入额外的转换代码执行或管理代价。本文通过在共享LLC中加入访存地址重映射实现体系结构辅助的自动转换。于是运行在不同处理器上的算法始终可以它们各自的最优数据存储布局访问共享数据,并充分利用各的自私有缓存。由于处理器不再直接进行布局转换,CPU或GPGPU代码中也不再需要加入额外的管理代码。其次,本文使用可编程的重映射控制器实现灵活的数据存储布局转换,移除了对数据大小和只支持特定目标布局的限制。根据GPGPU并行访存的特征,本文指出其访存过程中存在大量的仿射计算,即各线程执行完全相同的内存地址计算,只有作为输入的线程ID有差异。这种冗余计算导致GPGPU的计算资源浪费且不利于对访存统一调度。因此本文提出访存分离计算,由CPU生成仿射计算参数,交由共享LLC计算各线程的实际访存地址,并生成相应的访存请求。LLC最终将数据经过访存融合后推送给GPGPU的各线程。因此访存分离计算移除了GPGPU代码中大部分的访存地址计算和访存操作本身,将更多GPGPU的计算资源保留给实际工作,提高了系统效率。最后,本文使用模拟器环境验证提出的优化方法。其中共享数据队列相比传统的数据交换方法加速了 48%,而CPU和GPGPU的平均全局同步时间分别缩短到21%和38%。使用共享数据存储布局重映射后,测试程序的平均执行时间降低到69%;相比于使用CPU和GPGPU进行数据存储布局转换,使用本文的方法的平均转换时间分别减少到58%和46%。访存分离计算则将运行时间平均降低到48%,GPGPU平均执行的指令数下降到84%。实验表明,本文提出的优化方法从不同角度提升了 CPU和GPGPU在共享LLC架构下的数据共享性能。

其他文献

基于AHP方法的公众参与地方政府绩效评估有效性研究

近年来我国地方政府不断创新绩效评估模式,公众参与被广泛引入其中,但在实践过程中出现公众参与积极性低,公众参与能力有限,公众参与的保障机制不健全等一些问题。为了研究公众参与地方政府绩效评估的有效性,本文首先采用AHP方法,根据文献梳理、德尔菲法确定4类准则层和13类因子层。准则层包括“公众在地方政府绩效评估中的参与度”、“地方政府对待公众参与绩效评估的态度”、“公众参与地方政府绩效评估的制度保障”、

学位

公众参与地方政府绩效评估有效性AHP

工程项目质量管理的标准化及评价研究

建筑业作为国民经济性支柱产业,工程质量一直是全社会关注的热点问题,而将标准化应用于工程质量管理中将会不断提升质量管理水平。同时,工程项目是建筑行业的具体组成单元,每一个工程项目质量管理水平直接决定整个行业质量,因此,本文以工程项目为研究对象,对工程项目质量管理标准化及评价进行展开研究。首先,通过阅读大量的国内外文献研究和专家实地调研,对当前工程项目质量管理现状进行总结分析,确定了以工程项目质量管理

学位

工程项目标准化评价指标体系层次分析法实证分析

萘酰亚胺类DNA靶向抗癌药的合成及活性研究

本文分别以萘酰亚胺和香豆素为DNA嵌入剂母体,把三聚氯氰衍生物及胆甾醇作为药效团,根据分子杂交思想设计合成了三个系列共计16个新型DNA靶向抗癌药物。对其结构进行了鉴定,

学位

DNA嵌入剂抗癌萘酰亚胺香豆素

多自由度强非线性随机系统的响应与稳定性研究

响应与稳定性分析一直是随机动力学研究的热点,但对于多自由度强非线性随机系统而言,上述分析具有极大的复杂性,本文即针对这一问题的某些方面进行深入探讨。第一部分分析响

学位

强非线性系统精确平稳解瞬态概率密度随机稳定性随机平均法分数阶导数

基于变形轮机构的台阶爬越机器人设计与分析

在当今时代,机器人行业作为引领智能制造的代表行业,在全球新工业革命的浪潮下,得到了全世界的关注。服务型机器人是我国机器人行业研究的重要对象,已慢慢成为我国机器人行业发展的新趋势、本课题结合国内外爬越台阶机器人发展现状,设计出一种结构简单,运动平稳的台阶爬越机器人,为解决爬越台阶装置不稳定的现象提供了有效解决的方案。本文主要研究了台阶爬越机器人机械部分和爬越台阶运动中的一些问题,其具体内容如下:首先

学位

机器人变形轮爬越台阶构型重组仿真分析

基于低对称性四齿羧酸配体构筑的铟和锌MOFs材料的吸附与质子传导性能研究

金属有机骨架化合物（metal-organic frameworks,简称:MOFs）,通常是由金属离子或金属簇（次级结构基元,简称:SBUs）与有机配体自组装而形成的。基于不同的合成方法,不同的金属离子（簇

学位

金属有机骨架化合物气体吸附与分离染料吸附与分离碘吸附与释放质子传导

非稳态声源的声辐射计算与声场重建方法研究

近场声全息(NAH)是上世纪80年代发展起来的一种具有强大的噪声源识别定位和声场可视化功能的声学前沿技术,它通过测量近场全息面上的声压或质点振速,借助空间声场变换算法,既

学位

非稳态声辐射计算非稳态声场重建K-t方法实时分离技术非稳态声场分离技术插值时域等效源法非稳态多源场分离技术

建筑师介入的当代乡村建设及其对建筑学的启示研究

当下的乡村建设呈现社会各界力量多元介入的新局面,建筑师作为主动介入的重要群体之一,探索并实践着多样化的乡村建设模式。从建筑本体出发,关注乡村传统材料、结构、工艺的传承与演进,以及现代技术的研发与应用;从社会层面出发,推动乡村产业、组织、文化的发展;从综合层面出发,以建筑微介入的方式触发乡村的全面振兴。建筑师在应对乡村发展问题时,努力探索能为乡村做出的贡献,自身也在这一过程中不断的自我反思和进步。基

学位

乡村建设建筑师建筑学启示当代

佩奇将捐全部财产

<正>谷歌联合创始人、CEO拉里·佩奇日前称他去世后,希望可以将自己的全部财产捐献给可以改变世界的人,如特斯拉汽车公司和Space X的CEO以及SolarCity董事长Elon Musk。佩奇

期刊

改变世界

党旗飘扬分外红——山西汾阳王酒业有限公司联合党支部党建掠影

<正>山西汾阳王酒业有限责任公司位于吕梁市汾阳市,现有员工800余名,年产清香型大曲原酒6500吨,年创产值2亿元,实现利税7500万元。2012年6月,汾阳王酒业联合支部成立以来,加

期刊

联合支部汾阳王联合党支部

CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究

与本文相关的学术论文