论文部分内容阅读
随着集成电路制造工艺特征尺寸的缩小,单个芯片上集成的晶体管数目不断增加,电源电压不断降低,使得微处理器中软错误与间歇故障发生的概率不断增长,可靠性已成为微处理器设计时必需考虑的问题。已有提高可靠性的容错技术较少考虑微处理器对故障的屏蔽效应,导致较大的性能面积开销。因此,进行微处理器可靠性分析,评估各种故障对程序运行的影响,对于指导容错设计具有重要意义。本文针对软错误、间歇故障以及一种典型的间歇故障电压紧急,从体系结构层次进行可靠性分析,计算微处理器中不同结构的脆弱因子,并进行可靠性优化。本文的主要创新与贡献有:
1.提出了一种基于占用率的体系结构脆弱因子在线分析方法。
体系结构脆弱因子表征微处理器中不同结构发生软错误导致程序执行出错的概率,因此,在线计算不同结构的体系结构脆弱因子,能够指导动态选择具有不同容错能力的容错技术,在满足可靠性的前提下,降低带来的性能开销。本文提出的基于占用率的在线计算方法,通过分析程序运行过程中不同结构的占用率,避免了复杂的体系结构正确执行位分析。该方法首先记录程序运行时不同结构的占用率,然后分析并排除包含的空指令,计算当前程序段运行时的体系结构脆弱因子,并对后续程序段运行时的结果进行预测,根据预测结果指导选择合适的容错技术。通过运行SPEC CPU2000基准测试程序,得到的实验结果表明,本方法能够有效计算不同结构的体系结构脆弱因子,与精确的离线计算方法相比,发射队列、重排序缓存和存取队列三个结构的误差仅为0.10,0.01和0.039。
2.提出了一种基于间歇故障脆弱因子的微处理器可靠性分析方法。
间歇故障通常表现为一段时间内信号频繁无规律地跳变。研究表明,间歇故障已成为影响微处理器可靠性的重要因素,目前缺乏量化分析间歇故障对微处理器可靠性影响的指标和方法。本文根据间歇故障产生的原因进行故障建模,提出间歇故障脆弱因子分析指标,用于量化评估微处理器中不同结构对间歇故障的屏蔽效应。通过改变微处理器配置参数以及选择不同程序段,计算重排序缓存以及寄存器文件的间歇故障脆弱因子。运行SPEC CPU2000基准测试程序的实验结果表明,针对不同间歇SA1故障,重排序缓存和寄存器文件的间歇故障脆弱因子变化范围分别从21%到37%,以及从21.4%到31.5%,该类故障发生后引起程序执行出错的概率最高。此外,间歇故障脆弱因子随着待分析结构以及运行程序的变化而变化,表明设计时可以着重保护间歇故障脆弱因子高的结构,以降低对系统性能和功耗的影响。
3.提出了一种基于实质影响过滤器的电压紧急容错方法。
电压紧急是指电源电压低于给定阈值电压的情形。由于供电网络中电感以及电阻的影响,电流在短时间内快速变化并引起电压剧烈波动,导致电压紧急发生。已有容错方法默认所有电压紧急都将引起程序执行出错,本文通过分析发现只有部分电压紧急将影响程序执行。本文提出一种基于实质影响过滤器的电压紧急容错方法,通过分析影响程序执行的电压紧急所占比例,采用实质影响过滤器进行判断。当确定发生的电压紧急影响程序执行时,才启动保护措施;而对程序执行没有影响的电压紧急则不做处理。通过运行SPEC CPU2000基准测试程序,得到的实验结果表明,本方法面积开销小,相对于发生电压紧急立即回滚的方法,在确保系统可靠性的同时能减少57%的性能损失。