论文部分内容阅读
技术进步和应用需求推动着微处理器设计进入“多核”甚至“众核”时代。“众核”环境下核间通信规模的日益增大、面积与功耗约束的愈发紧迫、故障发生概率的持续增长均对片上通信架构在其可扩展性、性能、面积和功耗开销、可靠性等方面提出了更高的要求,传统的片上互连方式由于自身固有的局限性已无法满足当前以及未来片上高速增长的通信需求。为有效适用片上通信环境与通信需求的变化,NoC技术应运而生,并以其优良的可扩展性、低延迟、GALS时钟特性、较高的带宽和较强的可重用性等优点而成为当前众核系统片上核间通信的范例。然而,工艺技术和应用环境的持续变化使得NoC亦面临着愈加严峻的性能、面积、功耗和可靠性等方面的挑战。本课题即针对NoC面临的上述挑战,围绕NoC内部片上路由架构的高效能实现及优化技术来展开一系列相关研究,为未来众核微处理器的发展提供高效能的通信支持。论文主要工作及创新点如下:(1)面向消息往返通信性能优化的返程路径预构机制大规模多核、众核微处理器往往需要采用一定的Cache一致性协议来维持共享数据的一致性和完整性。在Cache一致性协议作用过程中,应用通信将以一定的概率呈现出一种消息往返通信模式。针对消息往返通信模式下报文网络传输过程的专门优化处理,目前国内外尚未发现相关研究成果或文献。为此,本文围绕消息往返通信模式下应答报文的路由传输过程展开专门优化,构建了一种适用于应答报文传输优化的返程路径预构机制(BRPCM)。BRPCM机制的基本思想是在请求报文网络传输的同时在其经历的各中间路由器内部分别预构一条适用于应答报文优化传输的返程路径,在相应的路由算法、虚通道分配管理、路径重用与终止机制的支持下,以期实现后续的应答报文甚至其他报文在满足相应匹配条件的情况下可以直接利用返程路径执行交叉开关的传输,进而旁通部分路由流水站(SA),加速报文的路由传输进程。人工合成负载以及真实应用踪迹负载通信下的实验结果表明:BRPCM机制在降低报文传输延迟以及提高网络吞吐率等方面相较于其他传统片上路由器结构均具有明显的优越性。(2)面向时空局部性通信性能优化的热点路径预构机制应用程序通信中报文在网络中传输时均会呈现出一定的时空局部性通信特性。传统的路径预构方法针对通信的时间局部性特性提出了一种伪电路机制(Pseudo_Circuit)用于加速报文在路由器内部的传输进程,但该方法在网络通信初始阶段以及网络注入率较大时均会存在着预构路径有效率以及重用概率不高、通信性能提升有限等问题。针对这一问题,本文首先针对维序路由模式下报文网络传输的空间局部性特性,提出了一种面向空间局部性通信优化的直通路径预构机制(SFRPM)。在此基础上,综合考虑应用通信的时空局部性通信特性,构建了一种适用于时空局部性通信优化的热点路径预构机制(HRPCM)。HRPCM机制可根据路由器各输入输出端口的实时通信状态实现热点路径在伪电路与直通路径之间的动态切换,以期提高预构路径的有效率以及重用概率,进一步降低报文平均延迟。人工合成负载以及真实应用踪迹负载通信下的实验结果表明:HRPCM机制在降低报文平均延迟以及提高网络吞吐率等方面相较于传统片上路由器结构以及路径预构方法均具有明显的优越性。(3)基于故障端口环回传输的细粒度容错路由算法VOQ缓存机制下各输入端口的VC仅能为特定的输出端口服务以及VC与I/O通道之间具有紧耦合关系的固有特性,使得VOQ路由器的通信性能以及容错效率非常敏感于节点内部VC以及I/O通道的故障。传统的容错路由策略由于难以有效适应VOQ缓存下对于节点内部VC和I/O通道故障的细粒度容错需求,存在资源利用率低、容错性能有限等问题。为此,本文围绕基于VOQ缓存的片上路由架构的容错设计,首先根据VOQ缓存的特点构建了一种细粒度网络故障模型,将节点故障细化至节点内部的VC和I/O通道层面。在此基础上,我们提出了一种基于故障端口环回传输的容错路由算法(FFR_FPLT),其通过利用输入故障链路端口中被废弃的正常VC和通道资源来克服节点内部部分通道故障对于网络性能造成的消极影响,以期提高网络资源利用率以及容错性能。人工合成负载以及真实应用踪迹负载下的实验结果表明:FFR_FPLT机制相对于传统容错路由策略能以相对较小的硬件开销换取报文最优输出端口转发概率、网络吞吐率、报文延迟和平均跳步数等网络性能的较大提升。(4)面向低开销NoC的单向Mesh网络架构对于可扩展的多核、众核微处理器系统,设计复杂度、面积和功耗开销已成为其片上互连架构设计的主要限制要素。为了克服功耗和面积开销的不利影响,本文提出了一种面向低开销NoC的单向Mesh网络架构(UniMESH),以此来实现一种低开销和低复杂度的网络架构。相对于传统的2D-mesh网络架构,UniMESH架构简化了路由器结构设计,仅使用半数的路由通道来构成一个全相连的拓扑网络,并采用了全新的路由算法和死锁恢复策略来维持网络性能。由此,UniMESH能够有效减少NoC设计的复杂性和面积开销,同时显著地降低不必要的功耗。实验结果表明:UniMESH相对于Ring架构在平均延迟、总功耗等方面均具有明显的优势;而相对于2D-Mesh架构可节约57.4%的路由器面积开销以及39.3%的总功耗,并仅增加4.5个时钟周期的额外延迟。