论文部分内容阅读
随着处理器逐步采用纳米级制造工艺,在处理器性能得到大幅提高的同时,由于集成电路特征尺寸的减小、电源电压的降低和频率的升高,使得处理器对于串扰、电压扰动、电磁干扰以及辐射等各种噪声干扰变得更加敏感,并可能引发错误的操作,处理器的可靠性成为一个日益严峻的课题。另一方面,对于航天等特殊应用场合,由于宇宙射线和高能粒子的辐照作用,使得处理器内部电路产生各种单粒子效应,并可能引起严重的事故,因此也对处理器可靠性提出了更高的要求。本文以龙芯1号处理器为研究原型,以瞬态故障引起的软错误为主要研究对象,通过故障行为分析,结合具体的处理器结构设计,从体系结构级探讨了纳米级制造工艺下与高可靠应用场合下处理器的可靠性设计方法,本文研究工作的主要创新点与贡献如下:1.提出一种连续快速的处理器仿真故障注入技术,通过同时运行两个处理器可综合RTL模型,在较短时间内对龙芯1号处理器快速注入了大约30万个软错误,保证了分析结果具有较好的统计意义,可以有效指导后续的可靠性设计。2.提出一种基于软错误敏感性分析的体系结构级低开销容错触发器设计技术,只对龙芯1号处理器中软错误敏感性高于3%的触发器采用容错触发器,节省了81.9%的触发器资源,同时却获得了与粗放加固方法相似的可靠性。3.提出一种基于局部性原理的处理器片内存储器可靠性设计技术,一方面,通过与虚拟地址历史记录进行比较,使得片内存储器在更多时间内处于空闲关闭状态,因而提高了可靠性;另一方面,采用了一种类write-through的更新算法,使得数据Cache片内存储器与内存始终保持数据一致,有效提高了数据Cache片内存储器的可靠性,降低了保护代价;通过采用这两步措施,处理器性能平均降低了4.09%,面积增加了4.4%,以较小的性能面积开销获得了片内存储器可靠性的较好提高。4.提出一种静态检测流水线与选择性重复执行技术,根据处理器中指令与面积分布的分析,对于ALU类指令,增加一条专门用于检测执行完整性的静态流水线,对于定点乘法类指令、浮点类指令,采用重新取指并执行两次的方法,只带来了4.6%的面积开销和2.93%的性能损失,却可以检测除访存类指令外所有指令的执行完整性。5.提出一种精确流水线超时恢复技术,针对不同情况,对流水线超时错误分别采用了结果总线增加操作码比较、产生超时例外重新取指执行指令、触发器超时重置、三模冗余与ECC校验等4种方法进行处理,整个处理器的面积只增加了0.5%,以较小的面积开销实现了处理器流水线超时错误的精确恢复。6.提供了龙芯1号处理器的一个体系结构级容错处理器版本,通过采用前述可靠性设计技术,处理器性能总共平均降低了7.22%,面积增加了9.8%,相对于文献报道的各种