论文部分内容阅读
多核芯片的出现和设计使得在2020年高性能计算实现E级浮点计算能力成为可能。随着处理器核数目的增加,对于高带宽,低延时存储访问网络设计的需求越来越明显。当处理器核与存储系统通信中数据传输速率提升时,电互连方式面临巨大的传输能耗和布线困难。此外,存储访问带宽在现有电互连方式下提升有限,多核芯片中处理器核对数据的存取将产生巨大的延时。因此,电互连结构下访问存储系统的能耗、互连面积、带宽和延时正在成为制约系统整体性能提升瓶颈,高性能计算系统面临“内存墙”问题。使用三维集成技术处理器核、存储系统和光片上网络将集成于同一芯片中。本文的研究重点在于利用多层硅沉积技术,设计一种面向存储系统的光片上网络,提高片上处理器核访问存储系统的并行性。首先,我们分析了IP核与存储系统之间通信流量的特性,针对该流量特性设计了一种适用于IP核与存储系统通信的可扩展拓扑结构。为实现对存储系统的并行访问,存储系统以最小并行访问单位“栈”(rank)进行划分。拓扑结构中使用一组环形波导连接所有IP核和栈。IP核与不同栈的通信通过不同环形波导进行区分,且在同一环形波导中来自不同IP核的存储访问请求通过不同波长进行区分。通过对网络中波长资源和微环的精确配置,实现了IP核与栈之间并行无阻塞通信。其次,我们对IP核与网络间通信接口、栈与网络间通信通信接口进行了研究。在栈的网络接口中配置缓存计数模块,用于监控存储访问请求处理情况。当缓存计数超过预定阈值时,栈接口将通过光片上网络向IP核进行广播,由此控制存储访问流量,避免存储访问请求丢失。IP核接口和栈接口中还配置了流水线模式的分布式存储访问控制器,用于实现并行化存储访问地址解析,缩短存储访问请求处理延时。最后,我们使用DRAMSim仿真器对所提出的光片上网络与传统电总线结构进行仿真对比。仿真中采用PARSEC测试标准中提取的存储访问流量。仿真结果表明使用所提出的光片上网络连接4栈存储系统时,平均存储访问带宽提升1.9倍,仿真时间内执行的存储访问请求数目平均增长1.95倍,平均存储访问延时下降53.2%;连接8栈存储系统时,平均存储访问带宽提升2.63倍,仿真时间内执行的存储访问请求数目平均增长2.52倍,平均存储访问延时下降89.8%。能耗分析结果表明本文所设计光网络中单位比特数据的传输能耗明显低于传统电总线互连方式能耗。在解决未来高性能计算中所面临的存储访问瓶颈问题时,本文的设计具有很好的应用前景。