论文部分内容阅读
多核处理器以其高性能、低功耗、设计周期短等诸多优势成为未来高性能处理器的发展趋势。由于应用对计算能力的需求是无限的,随着芯片上晶体管数目的进一步增多,多核处理器将逐渐过渡到大规模多核处理器或者称为众核处理器。对于这种非常复杂的大规模芯片来说,有很多问题亟待解决,本文主要关注大规模多核处理器的可靠性问题。
大规模多核处理器由处理器核阵列通过片上网络互连构成。本文针对大规模多核处理器的这两个主要组成部分,研究处理器核失效以及片上网络传输失效而导致的芯片可靠性问题。首先针对生产缺陷造成的处理器核失效的问题,研究大规模多核处理器的缺陷容忍方法;其次针对串扰、软错误等造成的数据传输失效的问题,研究片上网络的容错通信方法。本文的创新贡献主要有以下几个方面:
1.本文提出了大规模多核处理器的“N+M”核问冗余方式,引入了虚拟拓扑的概念,并提出了大规模多核处理器片上网络拓扑重构问题的定量分析方法。通过分析相关的研究工作,本文提出针对大规模多核处理器中缺陷导致的处理器核失效的问题,应使用“N+M”模式的核间冗余方法;当冗余核替换失效核时,不仅改变了体系结构设计阶段的目标拓扑导致处理器性能降级,而且各个芯片的底层结构都不相同,本文引入虚拟拓扑结构的概念,提出用拓扑重构的方法屏蔽各种不同的底层物理拓扑,为上层用户提供一个统一的界面;本文从片上网络性能的角度,提出了拓扑重构问题的定量分析方法。
2.本文证明了二维Mesh/Torus结构的拓扑重构问题是一个著名的NP完全问题的实例,并提出一种求解该问题的高效启发式算法—RRCS(行波列偷)制导的模拟退火算法(简称gSA算法)。本文搭建了片上网络的模拟器平台,使用合成的流量模型对所提出的启发式算法进行了评估。实验结果表明对于8×8的二维Mesh结构,与RRCS算法相比gSA算法产生的虚拟拓扑结构平均传输延迟降低15.4%,网络吞吐量提高3.8%,流量的分布也更加均匀。随着芯片规模的增大,gSA算法的平均性能相对RRCS提高更多。与一般的模拟退火算法(SA)相比,gSA算法所需的时间要少两个数量级。
3.在片上网络的容错通信方法研究方面,本文提出一种带有端到端反馈的随机容错路由算法(简称RET算法)。本文首先分析了现有的两种容错通信方法,即请求重传和概率广播的优点和不足,并在此基础上提出一种带有端到端反馈的随机容错路由算法。实验结果表明与请求重传算法相比,由于RET算法使用随机路由和流水式的主动重传机制,降低了传输的延迟;与广播算法相比,由于RET算法使用端到端的反馈方式,降低了冗余数据包带来的转发功耗,同时提高了传输的可靠性。