论文部分内容阅读
随着纳米工艺的持续发展以及集成电路设计方法、制造工艺、生产和测试技术的长足进步,CMOS晶体管尺寸不断缩小,集成至单个芯片上的晶体管数量呈指数级增长。片上众处理器系统(Multiprocessor System-on-Chip,MPSoC)成为超大规模集成电路和嵌入式系统的主要设计框架。依托片上光网络(Optical Network-on-Chip,ONoC)新型互连架构为处理器间通信提供的超高带宽、低延时和超低能耗的数据传输能力,该系统具备强大的并行处理能力、高效的计算和通信效能、优秀的资源利用率以及良好的可扩展性,被广泛应用在高性能计算乃至超算系统中。然而,受限于芯片散热技术、封装工艺和供电技术的不足,密集的处理器运行将迅速升高片上功耗密度,导致处理器温度过热,进而影响系统热可靠性,威胁芯片寿命与安全。为了控制功耗密度以保证芯片处于安全温度范围内,片上集成的处理单元无法同时全部开启或者运行在高频率/高电压状态,其中一部分计算单元不得不关闭,这就是“暗硅(Dark Silicon)”现象。暗硅时代下,热可靠性是新型众核芯片面临的关键性挑战:在计算层面,为保证处理器核心的热安全,暗硅众处理器面临着严重的利用率墙(Utilization wall)困境,处理器核心的低利用率造成了对片上处理资源的浪费,极大限制了众核系统计算性能的提升;在通信层面,受热光效应影响,光介质的光学性质随环境温度的变化而发生变化。考虑到尚不成熟的硅光子纳米制造技术,用于处理器间通信的核心光器件极易受片上温度梯度的影响。芯片热量分布不均和波动将会严重威胁片上光网络中数据传输可靠性,因而无法保证高质量片上通信。综上可知,针对基于片上光网络的新型众核系统热可靠性的设计与优化是高性能计算研究中关键且亟待解决的问题。解决这一问题既具备重要的学术价值,又具有广阔的实际应用前景。为此,本文基于对片上光网络新型众核系统的研究与设计,采用系统级的任务映射策略、网络级的路由技术、软硬件协作式片上光网络热量监测方案以及器件级调谐技术,从计算和通信两个层面全方位地研究了保障芯片热可靠性、协同优化系统计算性能、通信效率和能耗开销等多个目标的关键技术。主要研究内容如下:(1)研究并提出了针对暗硅众核处理器的温度预测与优化调度算法。通过研究不同制造工艺下处理器类型和暗硅现象对运行在多处理器上的计算任务的影响,本文对处理器产热和散热过程在空间和时间上的复杂行为进行了系统化分析和建模,构建了一个准确高效的众核处理器温度预测模型。基于对处理器温度的实时预测,进一步提出了一个两阶段式的芯片温度优化任务映射方案,以最大程度优化芯片温度分布,提升计算性能。第一阶段采用基于混合整数线性规划(Mixed Integer Linear Programming,MILP)的温度优化方法,以获得具有最低芯片峰值温度的全局最优任务映射方案。第二阶段提出启发式算法--芯片安全温度约束下的任务选择(Temperature-Constrained Task Selection,TCTS)算法,用以选择众处理器系统能够承受的最大任务子集,获得处理器计算性能与热可靠性的平衡。两阶段式的方案相结合,可获得全局最佳任务分配方案。不仅保证芯片始终处于安全温度范围,片上温度分布最佳,同时最大程度地满足任务的计算需求。将形式化方法(Formal methods)与启发式算法(Heuristic algorithms)相结合,优化了求解最优解问题的规模,使其具有高效性和良好的可扩展性。(2)基于软硬件协同设计,提出了两个全新的片上光网络热量监测与优化实现方案,为保障众核系统通信网络的热可靠性奠定了坚实基础。集中式热量监测方案:通过系统化地分析和建模核心光器件的热敏性以及片上光网络的热效应,深入研究网络拓扑、光路由器结构以及片上热量分布对处理器间光通信过程的影响,所提出的集中式方案将硬件层光路由器结构设计和软件层路由策略相结合,几乎无需额外硬件支持,能够实现准确、低计算开销的集中式热量监测。集中式方案具有信息集中、管理方便、能够实现片上光网络全局同步热量监测等优势,然而,其可扩展性有限。随着网络规模的增大,集中管理所有网络节点的复杂度呈指数级增长。相比之下,分布式热量监测方案能够实现更高的灵活性和可扩展性。分布式热量监测方案:首先,设计了一个基于级联微环谐振器(Micro-ring Resonator,MR)的耐工艺偏差(Process Variation,PV)的光学温度传感器(PV-tolerant Optical Thermal Sensor,PV-OTS)。通过全面分析和建模硅光子纳米制造工艺偏差和器件级波长调谐技术对片上核心光器件-微环的热敏性的影响,利用波分复用(Wavelength Division Multiplexing,WDM)技术中‘潜藏’的冗余性实现耐工艺偏差的热量测量,该传感器实现了快速、准确、可靠和低能耗的片上温度监测。基于该传感器设计,进而提出了一个轻量级优化实现方案,命名为Arb Link。结合对光路由器结构和片上光通信过程的分析,通过在时间和空间上复用光路由器,该方案仅引入了超低硬件成本和面积开销。所提出的设计思路和实现方案对不同拓扑网络和通用路由器结构具有适应性、对不同规模的网络具有可扩展性。(3)研究并开发了片上光网络通信性能、能耗和热可靠性协同优化路由技术。本文分析和建模了处理器间数据传输冲突对通信性能和能耗的影响,深入研究了片上热量梯度对处理器间通信可靠性的影响。为保障片上光网络热可靠性,本文提出了一个网络级热可靠路由标准。结合高效的器件级波长调谐技术,可实现高质量、高可靠的光数据传输。基于被保证的通信热可靠性,进一步提出了两种高效的通信冲突和热量感知路由算法,以协同优化片上光网络通信性能与能效。一为基于MILP的最优路由方法,可获得理论证明的全局最优路由方案,最小化数据传输冲突和通信能耗。此外,本文相应地提出了具有高度可扩展性的启发式算法—通信争用感知路由(Contention-Aware Routing,CAR)算法,以在多项式时间内获得近似最优路由方案。所提出的路由技术适用于大规模的片上光网络系统,且对2D-Mesh和2D-Torus拓扑结构具有良好的适应性。