面向瞬时故障的可配置容错技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:anitalok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着处理器设计朝更小的晶体管特征尺寸、更低的工作电压和更高的频率发展,瞬时故障引发的可靠性问题已经引起整个计算市场的关注。由于不同领域的用户对系统可靠性、成本、性能、功耗等指标的要求不同,如何面向不同用户的不同需求提供可靠性和代价满足约束的可靠性解决方案,成为处理器设计者必须面对的挑战。为了应对这种挑战,本文重点研究了可配置、低代价的容错保护技术。此外,为了分析瞬时故障的影响和容错技术的可靠性,本文也研究了基于故障注入的可靠性分析技术。具体来说,本文工作可以分为以下四个方面:1.处理器运算单元中的故障可能导致程序运行出现数据流错误或控制流错误。其中,数据流错误检测通常基于冗余计算的方法进行,如何降低冗余计算的开销(性能、硬件开销等)是困扰容错研究至今的难点问题。为了解决这一问题,本文结合软、硬件容错技术的优势,提出了一种可配置的数据流检测技术Epipe。Epipe首先通过改造现有的超标量流水线处理器,提供了一个能够对指令进行选择性冗余保护的硬件平台。由于超标量处理器中有丰富的计算资源,Epipe平台只需要很少的硬件开销。为了减少冗余保护产生的性能开销,Epipe还基于程序分析方法评估每个指令的重要性,即指令发生故障后导致程序输出错误结果的概率。程序运行时,Epipe根据用户的性能和可靠性要求选择保护最重要的一部分指令。Epipe的创新点在于,Epipe只冗余保护发生故障后导致程序输出错误结果的指令,对于导致系统异常或超时的故障则直接利用系统中的异常检测机制加以处理,而剩余的不会影响程序执行的故障(即被屏蔽的故障)则不需要任何处理。这种分类处理故障的方法有效地减少了需要冗余保护的指令,再结合时空开销较低的硬件指令保护技术,使得Epipe技术可以更低的开销保护程序数据流。2.实现控制流检测的一种有效技术是软件实现的标签分析方法。已有的标签分析技术除了存在时空开销过大和可靠性不足的问题外,还缺乏可配置性,无法满足不同用户的不同需求。此外,软件检测技术引入的冗余代码自身也有可能发生错误,现有的控制流检测技术在容错机制的自我保护方面缺乏研究。为了克服上述不足,本文提出了一种可配置的控制流检测算法CFCES。CFCES通过为每个程序块设计特殊格式的标签并在其中插装额外的控制流检测指令,以较少的开销有效地克服了已有算法的检测盲点。而且,CFCES在设计检测机制时引入了一种被称为“对等性”的不变量,通过对这种不变量进行检测,CFCES能够以极低的代价实现检错机制的自容错保护。此外,CFCES还通过分析函数的重要性和调节程序块的大小提供了可配置的优化方法,可以满足用户不同的时空开销和可靠性约束。CFCES优化方法的特点在于其可以提高CFCES的容错效率,且可以用于优化其它基于标签分析的控制流检测算法。3.瞬时故障不仅可能发生在处理器运算单元,也有可能出现在处理器存储单元中。被广泛用于保护片外存储的ECC技术并不适合用来保护片上存储结构,原因是这些存储结构本身已经占用了大部分芯片面积,并且访问频繁,采用ECC保护会带来大量的面积、性能和功耗开销。鉴于现有的容错研究中十分缺乏针对片上存储结构的合理保护方案,本文针对一种特殊的片上存储结构SPM提出了低代价的保护技术PPS。尽管用ECC对SPM进行完全保护的开销很高,但是对部分SPM存储进行ECC保护并进行合理分配仍是非常有价值的。PPS技术首先设计了基于部分ECC保护SPM的存储体系结构(被保护的比例可以根据不同应用的可靠性、性能等需求决定),然后对程序中的待分配变量进行脆弱性分析,并将SPM空间划分为“寄存器”,最后采取基于优先级的图着色方法将较为脆弱的变量优先分配到ECC保护的“寄存器”中。基于上述方法,PPS能够以较低的开销获得较高的存储可靠性。4.故障注入是一种有效且广为应用的可靠性分析方法。故障注入技术面临的困难是如何平衡故障模拟速度与精度的关系。由于已有的故障注入技术还不能有效地解决上述问题,本文提出了一种新的故障注入框架Smart Injector。Smart Injector首先基于程序分析从故障空间中删除等价类故障和结果确定型故障。等价类故障是指发生在相似的数据流或控制流上下文环境中的故障。这类故障往往会导致系统产生相同的反应,因此只需要将它们划为等价类并从中选取代表进行模拟注入即可,等价类中其它故障则可以从故障空间中删除。结果确定型故障是指那些通过程序分析就可以确定系统反应的故障。Smart Injector还首次开发了一种故障结果预测技术,通过预测故障产生的结果和判定结果的位置,可以在程序运行结束前提前判断故障注入的结果,从而减少单次模拟的时间开销。结合提出的故障删除技术和故障结果预测技术,Smart Injector以少量的精度损失极大地减少了故障注入的时间开销。
其他文献
目的:观察丙泊酚在无痛人流术中的应用效果。方法:选择410例无痛人流术患者作为观察组,409例正常人流术患者作为对照组,比较两组患者镇痛效果和其他观察项目评定结果。结果:观察
南通博物苑是中国人开办的最早的博物馆,主要的特点是公共植物园和公共博物馆合二为一.我国晚清状元张謇(1853~1926)先生在博物楼题的楹联"设为庠序学校以教多识鸟兽草木之名"
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
做好高校学生思想政治工作,要因事而化、因时而进、因势而新,对当代大学生进行思想政治教育要深刻把握时代特征、时代环境、个体特点、教育方式和教育素材等,在利用传统教育
与电影、电视剧相比,话剧似乎天生就是一种小众文化消费,它必须依靠演员、导演以及所有工作人员一场一场的付出来创造价值。而就话剧本身的生产过程来说,从创意提出到剧本交付、
我国中小企业融资担保业正处于规范发展期和监管形成期。本文在实地调查影响北京地区融资担保公司经营发展的主要因素的基础上,深入分析了双层监管制度对确立融资担保业现代
目前,冠心病心绞痛(胸痹)已经成为严重威胁健康的疾病。相对于硝酸酯类药物等西药的不良反应和耐药性,我国的传统中医药在冠心病(中医痹证)治疗上越来越显现出优势,以络病理论为
海拉尔市城市规划科学管理探微李希国随着改革开放的不断深化和现代化事业的迅速发展,海拉尔市的生产活动和社会活动节奏显著加快,各种新情况、新问题层出不穷,影响城市发展的因
期刊
为提高导弹作战的机动性,许多国家都在潜心研究各种新的导弹控制技术。倾斜转弯(Bank-to-Turn,简称BTT)控制技术是当今世界导弹控制领域内的一项先进的控制技术,对发展远程、
传统单核处理器受到功耗及制造工艺的限制,已无法通过提升主频来满足高性能嵌入式应用的需求。因此,学者们提出了片上多处理器系统的研究方向。与多处理器系统相比,片上多处