高效处理器容错技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：lurenjia1983

【摘要】

：

随着工艺技术的不断进展，微处理器变得越来越容易受到瞬态故障的影响，可靠性成为处理器当前面临的重大挑战。面向瞬态故障，本文从故障传播行为分析的角度研究了多核处理器的可靠

【作者】

：

刘光辉

【出处】

：

国防科学技术大学

【发表日期】

：

2013年期

【关键词】

：

可靠性瞬态故障容错处理器共享存储分段执行故障传播

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着工艺技术的不断进展，微处理器变得越来越容易受到瞬态故障的影响，可靠性成为处理器当前面临的重大挑战。面向瞬态故障，本文从故障传播行为分析的角度研究了多核处理器的可靠性问题，研究了高效容错多核处理器的设计与实现技术。取得的主要研究成果如下：1、分析了故障在单个线程内的传播行为。基于检查点方法对程序进行分段容错的现状，我们采用数据流分析方法，分析了硬件故障所引起的数据错误随指令执行的传播行为，分析了故障在单个线程内的段间传播行为，建立了相应的错误传播方程和算法。并提出了基于已知错误的故障定位分析方法，得到了避免故障跨段传播，所需检查数据的最小集合。故障在单个线程内的传播行为分析理论，能够指导处理器核的检错和容错设计。2、分析了故障跨线程的传播行为。具体包括：分析了共享存储并行程序的分段结构；研究了故障在不同并行分段结构上的传播行为，发现杂环结构是产生故障向后污染传播的根本原因；证明了通过修改分段方式能够将杂环和纯环结构转换成无环结构，以避免故障向后污染传播行为的发生；发现了弱存储一致性模型对故障跨线程传播行为的影响。故障跨线程的传播行为分析理论，能够指导多核处理器的检错和容错设计。3、根据故障在单个线程内的传播行为分析，提出了BRO-SOC（BackwardRecovery Oriented Sphere of Correctness）框架的概念，BRO-SOC归纳了故障的检测和隔离边界与系统的存储层次之间的关系，并定义了一个正确性域，随着计算的进行，程序可以分段式地步进，SOC域内的功能部件和程序状态具备逻辑上维持正确性的能力。在BRO-SOC框架下，提出了一种新的基于时间冗余技术的容错处理器核结构DoubleRun，其基本思想是将程序以时间冗余的方式分段执行（即容错事务），确保其中无故障产生后再提交新产生的程序状态。其创新之处在于：（1）使用时间冗余机制容忍系统中的瞬态故障，省去了空间冗余执行方案中的核间队列与核间输出比较通道；（2）将故障检测、隔离边界设定在SOC框架中适当的存储层次，缩小了故障的传播距离和检测延时，减小了前瞻现场规模及维护前瞻现场的硬件开销，且避免由于改动流水线而导致的性能下降；（3）使用写操作的输出作为故障检测手段，并用CRC算法将所有写操作的信息编码到指纹中，通过对比指纹检测故障使故障检测机制更高效；（4）用纯硬件方式实现正确性域之内的检查点，使检查点的创建和维护开销很小。4、根据故障跨线程的传播行为分析，提出了多核并行计算平台的DoubleRun结构——DoubleRun-MP，设计实现了DoubleRun-MP并行容错处理器结构。DoubleRun-MP使容错事务的执行、验证和提交过程可分布式、本地化地完成，无需进行全局同步，增加了系统的可扩展性。DoubleRun-MP设计了PSB缓冲机制，支持处理器核中同时维护多个未经验证容错事务，避免了因父子事务依赖关系而导致的处理器忙等待，提高了处理器的使用率。为支持未验证数据的共享，DoubleRun-MP还使用并修改了MOESI cache一致性协议，使其支持原始执行体与冗余执行体的冗余执行。此外我们还在第三章的理论基础上提出了写前读并行程序分段方法构造容错事务，避免系统检测到故障后回滚时产生的多米诺骨牌回滚效应，使用Lamport时钟对容错事务进行全局排序以支持其新状态按逻辑顺序向下持久化。提出了访存窗口的概念，并设计了指令年龄表，通过限制写操作打破访存窗口确保了原始执行体与冗余执行体的输入一致性，保证了并行程序的执行语义正确性。

其他文献

基于奥马哈系统的垂体瘤患者延续护理

目的探讨以奥马哈系统为理论基础的延续性护理在垂体瘤术后患者中的应用情况。方法选取我院2016年6月至2017年4月垂体瘤术后患者80例,出院前1天运用奥马哈问题系统进行信息采

期刊

奥马哈系统垂体瘤延续性护理

如何做好质量监督抽样检验工作

本文针对质量监督抽样工作进行探讨,分析抽样检验工作中存在问题,并提出相关建议,希望更能够为质量监督抽样检验工作的发展提供一点理论支持。

期刊

质量监督抽样检验要点

“三同两百”实践育人体系构建的研究

马克思主义认为实践是认识的基础和动力,也是获得知识的源泉。不仅如此,实践也是检验真理的唯一标准。对于当前的大学生来说,参与实践的机会相对较少,因此,高校举办相应的实

期刊

新青年下乡三同两百实践育人

分包商中途停工退场的应急处理——从一起分包合同纠纷谈起

2007年10月，浙江某建设集团公司（下称总包单位）在总承包某体育馆工程后，将其中幕墙工程的设计、制作、安装分包给福建某幕墙公司上海分公司（下称分包单位）。当幕墙工程进行到尾声时

期刊

总包单位分包合同幕墙公司分包单位审计费幕墙工程分包商

生物全息疗法治疗痛症举隅

生物全息疗法是应用穴位的全息律进行治疗疾病的方法。笔者在临床治疗中通过针刺第二掌骨侧穴位治疗各种急慢性疼痛性疾病,均取得满意的疗效,现将典型病例报告如下。1 足跟痛

期刊

生物全息疗法祖国医学第二掌骨

基于快速网络的新型存储层次设计与实现

数据密集型程序有着广泛的应用，已经成为高性能计算中最重要的应用程序之一。这种程序运行时需要频繁访问磁盘上的数据文件，或者要求的主存容量远大于本地主存，导致频繁访问交换

学位

网络主存部分匹配预测Markov存储层次工作站集群空闲资源可靠性内核级通信

大规模并行计算通信可扩展性—分析、优化与模拟

随着系统规模的扩大和结点计算能力的提高，通信已经成为制约并行计算可扩展性的重要瓶颈。通信可扩展性问题，即分析通信受何种因素影响并且该影响增大到何种程度会限制系统的可

学位

并行计算通信可扩展性通信原语通信隐藏通信竞争作业分配通信协议可扩展性预测离散事件模拟

高温抗氧化铱涂层材料的研究进展

铱涂层具有良好的抗氧化性能、高的电导率、很强的催化活性以及很好的抗腐蚀性等。这使它在电学、抗氧化涂层、催化领域都有广泛的应用。文章阐述了高温抗氧化铱涂层材料的研

期刊

复合材料铱涂层高温抗氧化应用

中小型农业装备制造企业经营管理中的问题

为推动农业可持续发展、满足我国农业生产、现代农业建设对农业机械日益增长的需要,国家出台了一系列政策扶持农业装备制造业的发展,农业装备生产企业大部分规模是中小型,企

期刊

农业装备经营管理生产agricultural equipment management and operation

伦敦奥运尴尬事

2005年7月6日晚，在国际奥委会全体委员的投票选举中，伦敦一路过关斩将，在最终的对决中击败了巴黎，取得了2012年奥运会的主办权，消息宣布后，伦敦奥运申办团成员激动地起立拥抱，热沔盈

期刊

奥运会伦敦尴尬国际奥委会主办权

高效处理器容错技术研究与实现

与本文相关的学术论文