PKUnity86片上互连结构的访存性能优化策略设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着半导体制造工艺水平的快速提高和应用需求的持续增长,系统芯片集成的功能部件数量不断增加,片上通信压力相应增大,对片上互连结构设计提出了更高的要求。本文基于PKUnity86系统芯片开展片上互连结构的优化工作,以提升处理器访存性能。主要工作包括以下四个部分。  第一,基于PKUnity86系统芯片的互连结构和存储子系统,分析了PKUnity86处理器访存通路。在现有互连结构中,总线模块位于L1Cache与下一级存储之间,并与多个I/O设备互连。因此,总线模块设计复杂,处理器访存请求在总线模块中的传输延迟较长,限制了处理器访存性能。同时PKUnity86系统芯片内处理器按序执行,对访存延迟尤为敏感,降低处理器访存延迟对提高处理器性能至关重要。  第二,设计并实现了PKUnity86互连结构的优化方案。为降低处理器访存延迟,该方案在L1Cache和总线模块之间新增交易分发模块,将处理器发出的访存请求与其它请求分离,为访存请求提供了一条更短的通路。同时对处理器外的互连结构进行修改,满足了互连结构对访存端口数量和ID宽度的约束,以确保本文方案的正确性。本文方案减少访存请求在互连结构上传输延迟的同时,简化了处理器访存通路的逻辑,可提高处理器访存通路的工作频率。该方案同时适用于下一级存储为L2Cache和主存的两种架构。  第三,进一步分析和优化了处理器访存通路的时序。本文在TSMC40nm工艺下,评测和分析了交易分发模块的时序,并在处理器下一级存储为L2Cache的架构下,优化了处理器访问L2Cache通路的时序。时序优化后,可将L2Cache的工作频率从总线模块频率提升至处理器频率。采用本文方案后,在L2Cache发生命中时,处理器发出访存请求到数据返回的延迟从33个CPU周期减至29个CPU周期;提升L2Cache频率后,该延迟进一步从29个CPU周期减至17个CPU周期。  第四,在FPGA原型上对本文方案进行了功能验证,并使用SPECCPU2006基准评测程序集评测了本文方案的优化效果。评测结果表明,对于处理器下一级存储为L2Cache和主存两种架构,采用本文方案处理器性能分别提升了19.4%和9.3%。
其他文献
企业应用系统的开发一直面临着重大挑战:一方面,企业应用系统面对的是一个异构的分布式环境,它必须技术与已有系统的集成性和与其他系统的互操作性;另一方面,作为为客户、合
内存管理是操作系统的核心功能之一,主要负责操作系统运行时对计算机的内存资源进行分配和使用。虚拟内存管理是现代操作系统内存管理的一个主要组成部分,它为每个用户进程提供
手语作为一种高度结构化的手势,是聋人进行日常交流必不可少的手段.手语识别作为人机交互领域中的一个重要组成部分,它的研究和实现具有重要的学术价值和广泛的应用前景.由于
近几年来,面向对象数据库(OODBS)被许多高级应用程序所采用。OODBS是类和这些类的实例的集合。在OODBS中,类和实例都被称为对象。数据库系统的一个重要特点就是能对共享数据进
CNC(微机数控系统)技术是现代加工技术的一个重要组成部分.CNC能够控制高速度、高精度、多轴联动的加工设备从而制造出工业领域的各种复杂零件.随着计算技术和制造技术的不断
随着云计算的发展,越来越多的程序将被部署到云端。实际上,程序不仅仅在开发完成后可以部署到云端,它的开发过程也可以在云端完成。在这种情况下,基于云计算的在线集成开发环境成
随着Internet技术的飞速发展,网络互联和信息共享成为信息时代总的发展趋势。Internet已经成为大部分信息系统运行的平台,电子商务、电子政务甚至是很多军事信息都通过Internet
该文首先具体分析了GIS系统的发展现状,讨论了目前WebGIS常规采用的体系结构,指出了其中存在的主要问题,并从解决问题的角度引出了对GML的论述,进一步探讨了GML的来源及发展
网络拥塞一直是长期困扰Internet的难题,近年来虽然人们先后提出了多种卓有成效的算法,但网络拥塞问题仍然远未曾解决,使得拥塞控制一直是网络研究领域的热点之一.在拥塞控制
我们在进行"广东工业大学继续教育学院网络管理信息系统"的项目研发过程中遇到了这样的问题:学生通过外网查询成绩,教师通过外网录入成绩到内网.在外网防火墙等防护机制都失