论文部分内容阅读
随着半导体制造工艺水平的快速提高和应用需求的持续增长,系统芯片集成的功能部件数量不断增加,片上通信压力相应增大,对片上互连结构设计提出了更高的要求。本文基于PKUnity86系统芯片开展片上互连结构的优化工作,以提升处理器访存性能。主要工作包括以下四个部分。 第一,基于PKUnity86系统芯片的互连结构和存储子系统,分析了PKUnity86处理器访存通路。在现有互连结构中,总线模块位于L1Cache与下一级存储之间,并与多个I/O设备互连。因此,总线模块设计复杂,处理器访存请求在总线模块中的传输延迟较长,限制了处理器访存性能。同时PKUnity86系统芯片内处理器按序执行,对访存延迟尤为敏感,降低处理器访存延迟对提高处理器性能至关重要。 第二,设计并实现了PKUnity86互连结构的优化方案。为降低处理器访存延迟,该方案在L1Cache和总线模块之间新增交易分发模块,将处理器发出的访存请求与其它请求分离,为访存请求提供了一条更短的通路。同时对处理器外的互连结构进行修改,满足了互连结构对访存端口数量和ID宽度的约束,以确保本文方案的正确性。本文方案减少访存请求在互连结构上传输延迟的同时,简化了处理器访存通路的逻辑,可提高处理器访存通路的工作频率。该方案同时适用于下一级存储为L2Cache和主存的两种架构。 第三,进一步分析和优化了处理器访存通路的时序。本文在TSMC40nm工艺下,评测和分析了交易分发模块的时序,并在处理器下一级存储为L2Cache的架构下,优化了处理器访问L2Cache通路的时序。时序优化后,可将L2Cache的工作频率从总线模块频率提升至处理器频率。采用本文方案后,在L2Cache发生命中时,处理器发出访存请求到数据返回的延迟从33个CPU周期减至29个CPU周期;提升L2Cache频率后,该延迟进一步从29个CPU周期减至17个CPU周期。 第四,在FPGA原型上对本文方案进行了功能验证,并使用SPECCPU2006基准评测程序集评测了本文方案的优化效果。评测结果表明,对于处理器下一级存储为L2Cache和主存两种架构,采用本文方案处理器性能分别提升了19.4%和9.3%。