多核处理器的访存模拟与优化技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lfastcandmuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在工艺和应用的双重推动下,多核结构成为当前高性能微处理器的发展趋势。多核对单芯片有限Cache、带宽等存储资源的竞争将进一步凸显访存的瓶颈,同时伴随着更加多样的目标应用,微体系结构研究采用的性能评估环境面临新的要求。本文的研究主要围绕多核处理器的性能模拟和存储子系统的性能优化展开,工作涵盖了软件平台建设和结构逻辑设计两个层次,论文的贡献与创新之处包括:1.本文设计并实现了基于龙芯CPU的多核全系统模拟器SimOS-Godson。通过采用所设计的备份回滚、值预测检验等算法,解决了因为功能与时序分离的组织形式而带来的精确异常、存储一致性等关键难题,经过了与真实处理器模型的误差校正,实现了方便高效的调试、控制与统计功能,较好地协调了速度、灵活、精确三方面的关系。SimOS-Godson的平均指令模拟速度超过300K/秒,处理器模型误差小于15%,其不但可以为多核体系结构研究提供基于软件的性能模拟环境支持,同时也是龙芯多核芯片的硅前系统开发平台。2.从有效利用带宽、提高访存性能出发,本文提出了一种乱序调度与模式预测相结合的多核访存控制器管理策略。乱序调度借助多核访存更加密集的特点,将请求队列作为调度窗口,使位于同一Page的请求能连续执行。模式预测根据历史窗口的访存次数来识别热点线程,通过抽取热点流进行Page模式的预测,减轻多核访存请求交织对空间局部性预测的干扰。结合两种优化技术实现的访存控制器能够有效利用DRAM芯片的Open Page特性来降低访存延时,对典型多线程应用的性能提升平均可达8.6%。3.针对多核共享和私有Cache结构各自的优点与局限,本文提出了一种新型的异构CMP Cache结构,采用两类具有不同Cache层次的结点组成多核芯片,设计了基于间接索引的Cache容量复用等技术,协调Cache访问局部性与容量利用率之间的冲突,提供了容量有效且访问迅速的片上存储层次。实验结果表明:对于单进程应用,异构CMP Cache平均可获得16.2%的性能提升;对于多线程应用,性能提升为9.1%。异构CMP Cache还具有硬件结构相对简单的特点,可降低设计和验证的难度,具有较好的工程可实现性。
其他文献
基于线性模型的预测控制算法已广泛应用于有约束多变量工业过程。然而,对于具有强非线性、扰动频繁或工作点大范围变化的系统,采用基于工作点附近线性化模型的预测控制常常无法
“叙事性”的绘画手法是汉代艺术的特征之一。相对于之前的中国艺术传统,汉代人擅长用描绘历史故事的方式来传达政治和伦理的价值观念,以及那个时代人们普遍的宇宙认识。本文的
目的探索ICU患者重症监护经历的各个方面,制定一份适用于中国ICU患者、可以量化地评估ICU患者重症监护经历的量表,评价量表的信度和效度;并探讨重症监护经历对患者住院期间焦虑
汽车悬架系统是传递车身与轮胎之间各种力和力矩的连接装置。悬架作为各种力和力矩的传动装置,其传递特性的好坏是影响汽车行驶平顺性和操纵稳定性最重要、最直接的因素。目
在Ferguson的负性化学放大胶(CAR)后烘反应动力学模型基础上,增加了后烘过程中光致酸扩散模型,通过后烘模型的简化,得到了简化的后烘反应扩散动力学模型。将模拟图形与Fergus
随着对女性盆底整体解剖结构再认识及实时三维超声技术的发展,经会阴超声在围生期的应用日益广泛。通过经会阴超声检查可了解晚孕期孕妇的盆底情况,预测分娩方式;有效评估分
教育家第斯多惠说过:"教学艺术的本质不是在于传授,而在于激励、唤醒和鼓舞。"能在教学当中直接起到唤醒和激励作用的是赏识。因此,在小学语文教学中,我们语文教师应时刻赏识
介绍了大动态连续检波式对数放大器(SDLA)的设计方法、工作原理和结构。设计了一种对数精度小于1dB、动态范围大于100dB的高精度大动态连续检波式对数放大器;给出了实际测试
鼠尾藻[Sargassum thunbergii (Mert.) O’Kunte]是北太平洋西部特有的一种暖温性大型海洋经济价值褐藻,在我国沿海地区北起辽东半岛南至雷州半岛的硇州岛,都有广泛分布。鼠
精益生产方式是人类现代工业历史一次革命性的重要里程碑,在能源危机日益凸现,环境问题日益恶化的今天特别具有现实意义。他的思想精髓也符合党的十六大提出的创建集约型社会