论文部分内容阅读
【摘要】本文对容错技术概念做了进一步的阐述,分析了什么是处理器容错,进而进一步分析了处理器容错方向,以及处理器容错技术,从而,为进一步的利用处理器容错技术提供了理论支持。
【关键词】处理器;容错技术;研究;展望
中图分类号:E951 文献标识码:A 文章编号:
一、前言
容错技术对于处理器的正常运行来说至关重要,如何在处理器上很好的利用容错技术已经成为了处理器进一步发展的必要课题,处理器容错技术的研究需要结合处理器的特性展开,同时对其容错技术做出进一步的探讨。
二、容错技术概述
容错就是当由于种种原因在系统中出现了数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
局域网的核心设备是服务器。用户不断从文件服务器中大量存取数据,文件服务器集中管理系统共享资源。但是如果文件服务器或文件服务器的硬盘出现故障,数据就会丢失,所以,我们在这里讲解的容错技术是针对服务器、服务器硬盘和供电系统的。
三、处理器容错
处理器在运行过程中产生的错误可以分为硬错误和软错误两种。硬错误是电路单元产生的不可恢复故障,是永久性的错误;而软错误则是由于噪声干扰或者高能粒子撞击而引起的瞬态故障,是可以恢复的错误。研究表明,计算机系统中80%~90%的失效都由瞬态故障引起,表明瞬态故障是引起计算机系统失效的主要原因。
为了消除软错误的影响,提高处理器的可靠性,可以在设计阶段采用容错设计技术,通过冗余容错的电路以及体系结构设计,使得处理器具有容错功能。容错技术总是同冗余的概念联系在一起,冗余技术可以基本分为如下几类:硬件冗余、软件冗余、信息冗余和时间冗余。
四、 处理器容错方向
随着处理器逐步采用纳米级制造工艺,处理器的集成度越来说高,功能越来越强大。然而在处理器性能得到大幅提高的同时,由于集成电路特征尺寸的减小、电源电压的降低和频率的升高,使得处理器对于串扰、接地反弹、电磁干扰以及辐射等各种噪声干扰变得更加敏感,并可能引发错误的操作,大大降低了处理器的可靠性。直到近几年,处理器本身的可靠性和容错设计才得到人们足够的重视。处理器容错设计的研究有四个主流方向,下面将分别介绍当前处理器可靠性设计和容错处理的各个方向:
1、在 FPGA 上实现可重构容错处理器
可重构技术的出现使处理器可靠性的提高得到了很大的发展空间,取得了巨大的进步。FPGA 本身具有可编程改变逻辑的功能,因此在高可靠性设计中,可以利用 FPGA 的现场可编程特性,当工作单元出现故障时,通过对芯片进行重新布局布线以及网镖数据重载,实现芯片逻辑功能的现场重构和修改,从而提高无人工作环境下处理器的可靠性。
2、单芯片处理器的容错与可靠性研究
从硬件和软件设计两个方面采取措施,提高单芯片处理器的可靠性,这是当前处理器可靠性研究的主流方向。为了提高单芯片处理器的可靠性,可以从工艺、电路设计、微结构设计以及软件设计等不同角度出发分别采取措施,绝大多数研究都集中在处理器的容错结构设计上。
3、处理器阵列的容错与可靠性研究
一些对处理器性能需求很高的特殊应用场合需要采用处理器阵列,例如图像处理、气象预测等。
五、处理器容错技术
本节以我们提出的分类法为基础,以处理器容错技术的趋势为线索,对目前流行的处理器结构、微结构的容错机制,以及业界在不同层次上有代表性的研究成果进行介绍和分析.
1容错与高性能技术的融合
如图1所示,时问冗余可以在指令级或线程级等不同的级别实现.
(一)指令级容错
指令级容错主要利用处理器已有的高性能技术,在对其结构、微结构做最小改动的情况下利用ILP实现容错.近年来许多高性能技术已经应用到容错领域,例如指令重发、指令复制、指令重用(instruction reuse)以及Bi-t sliced技术等。
指令重发与指令复制技术(instruction reissueand instruction replication)时间冗余技术的典型作法是使指令执行两遍并对两次执行结果进行比较,实现以指令为单位的“细粒度”容错。这可以通过指令重发或指令复制机制实现。
①指令重发:在处理器的调度段使指令重复执行;
②指令复制:在解码段利用指令注入技术(in-struction injection)在处理器中形成多个指令流实现。该方法利用指令注入逻辑从主线程生成R-1个冗余指令流,并为每条指令的R个拷贝分配连续的ROB(reorder buffer)单元分别进行解码并分派到功能单元执行,起到了重复执行的效果。当多个指令流的执行结果一致时,在处理器提交段又合成为一个指令流,即每条指令只提交一次;不一致时则利用分支回绕(branch rewind)机制将处理器恢复到正确状态。总之,指令重新执行的方式以时间为代价换取了处理器的高可信性。
(二) 指令重用IR(instruction reuse)
动态指令重用是一种非前瞻技术,原理类似于备忘录。指令重用利用程序本身固有的冗余特征,即一个静态指令的实例会以相同操作数多次执行,来消除处理器冗余计算提高性能。为降低其时间代价,人们把IR指令重用技术应用于容错领域。
如图2所示。重用缓冲(reuse buffer)包括一个操作码、两个操作数和一个执行结果。指令执行时会检索重用缓冲,命中则直接利用查找的结果进行提交;否则指令正常执行,并将指令执行结果写入重用缓冲。重用也可以在不同的级别实现,如块重用、踪迹重用等.
2容錯与低功耗技术的融合
和高性能一样,低功耗和可信性已经成为下一代处理器设计的两个重要指标.因此,正确地理解处理器中各组成部件的功耗与可信性的关系及其交互具有重要意义。人们对Cache中的功耗与容错交互问题进行了深入研究。Zhang等人提出一种通过保护复制数据实现低功耗的机制;Somani等人对使用频率高的Cache行进行保护降低功耗;Li等人在电路级和微结构级研究了可信性与低功耗的交互与均衡问题,并提出了一种自适应的、利用不同复杂度编码实现对Cache中干净数据(clean)和脏数据(dirty)保护的机制。Zhang等人提出了一种检测点(checkpointing)与动态电压调整DVS(dynamic volt-age scaling)相结合的方法在实现容错的同时对Cache进行动态功耗管理。功耗感知的(energy-aware)自适应检测点在任务级对功耗动态管理的同时实现了容错。不同的低功耗技术具有不同的可信行为,低功耗与可信性的交互与均衡已经受到业界的高度关注。
3性能/功耗/容错的交互
DVS控制策略机制网络处理器NP(network processor)的出现为路由器等高性能网络设备的构建提供了灵活、高效的平台,目前已成为嵌入式领域的热点。典型的NP集多处理与多线程技术与一身,在一个芯片中集成了多个利用包级并行性快速执行的可编程微引擎ME(micro engine)提供强大的网络处理能力。Intel公司的IXP1200是NP结构的代表,它由一个Stron-gARM处理器核、6个微引擎、一个标准内存接口和一个高速总线接口组成。随着主频的提高和复杂性的增加,功耗已经成为NP设计中的重要因素之一。在这样的背景下,Luo等人开发了一个基于IXP1200的定时准确的、开源的结构级性能/NP仿真框架———NePSim,在性能与功耗方面获得了满意的准确度。如图4所示,Luo模拟了DVS技术对降低功耗空间进行了优化,以0.5%的性能代价获得了8。1%的功耗收益。目前我们正在从事NP中性能/功耗/容错交互与均衡的深入研究。
六、结束语
本文研究分析后得出的结论是,处理器容错技术对于当今处理器的性能优化有很大的帮助,能够极大的提高处理器的使用效果,为用户提供更好的处理器,但是,对于处理器的容错技术,我们还需进一步的进行研究和分析。
参考文献
[1] 梁柱.网格与容错[J].科学咨询(决策管理). 2010(04)
[2] 蓝玉龙.提高计算机系统可靠性技术[J].广西教育学院学报. 2000(04)
[3] 周荣. 容错技术研究[J]. 商情(教育经济研究). 2008(05)
【关键词】处理器;容错技术;研究;展望
中图分类号:E951 文献标识码:A 文章编号:
一、前言
容错技术对于处理器的正常运行来说至关重要,如何在处理器上很好的利用容错技术已经成为了处理器进一步发展的必要课题,处理器容错技术的研究需要结合处理器的特性展开,同时对其容错技术做出进一步的探讨。
二、容错技术概述
容错就是当由于种种原因在系统中出现了数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
局域网的核心设备是服务器。用户不断从文件服务器中大量存取数据,文件服务器集中管理系统共享资源。但是如果文件服务器或文件服务器的硬盘出现故障,数据就会丢失,所以,我们在这里讲解的容错技术是针对服务器、服务器硬盘和供电系统的。
三、处理器容错
处理器在运行过程中产生的错误可以分为硬错误和软错误两种。硬错误是电路单元产生的不可恢复故障,是永久性的错误;而软错误则是由于噪声干扰或者高能粒子撞击而引起的瞬态故障,是可以恢复的错误。研究表明,计算机系统中80%~90%的失效都由瞬态故障引起,表明瞬态故障是引起计算机系统失效的主要原因。
为了消除软错误的影响,提高处理器的可靠性,可以在设计阶段采用容错设计技术,通过冗余容错的电路以及体系结构设计,使得处理器具有容错功能。容错技术总是同冗余的概念联系在一起,冗余技术可以基本分为如下几类:硬件冗余、软件冗余、信息冗余和时间冗余。
四、 处理器容错方向
随着处理器逐步采用纳米级制造工艺,处理器的集成度越来说高,功能越来越强大。然而在处理器性能得到大幅提高的同时,由于集成电路特征尺寸的减小、电源电压的降低和频率的升高,使得处理器对于串扰、接地反弹、电磁干扰以及辐射等各种噪声干扰变得更加敏感,并可能引发错误的操作,大大降低了处理器的可靠性。直到近几年,处理器本身的可靠性和容错设计才得到人们足够的重视。处理器容错设计的研究有四个主流方向,下面将分别介绍当前处理器可靠性设计和容错处理的各个方向:
1、在 FPGA 上实现可重构容错处理器
可重构技术的出现使处理器可靠性的提高得到了很大的发展空间,取得了巨大的进步。FPGA 本身具有可编程改变逻辑的功能,因此在高可靠性设计中,可以利用 FPGA 的现场可编程特性,当工作单元出现故障时,通过对芯片进行重新布局布线以及网镖数据重载,实现芯片逻辑功能的现场重构和修改,从而提高无人工作环境下处理器的可靠性。
2、单芯片处理器的容错与可靠性研究
从硬件和软件设计两个方面采取措施,提高单芯片处理器的可靠性,这是当前处理器可靠性研究的主流方向。为了提高单芯片处理器的可靠性,可以从工艺、电路设计、微结构设计以及软件设计等不同角度出发分别采取措施,绝大多数研究都集中在处理器的容错结构设计上。
3、处理器阵列的容错与可靠性研究
一些对处理器性能需求很高的特殊应用场合需要采用处理器阵列,例如图像处理、气象预测等。
五、处理器容错技术
本节以我们提出的分类法为基础,以处理器容错技术的趋势为线索,对目前流行的处理器结构、微结构的容错机制,以及业界在不同层次上有代表性的研究成果进行介绍和分析.
1容错与高性能技术的融合
如图1所示,时问冗余可以在指令级或线程级等不同的级别实现.
(一)指令级容错
指令级容错主要利用处理器已有的高性能技术,在对其结构、微结构做最小改动的情况下利用ILP实现容错.近年来许多高性能技术已经应用到容错领域,例如指令重发、指令复制、指令重用(instruction reuse)以及Bi-t sliced技术等。
指令重发与指令复制技术(instruction reissueand instruction replication)时间冗余技术的典型作法是使指令执行两遍并对两次执行结果进行比较,实现以指令为单位的“细粒度”容错。这可以通过指令重发或指令复制机制实现。
①指令重发:在处理器的调度段使指令重复执行;
②指令复制:在解码段利用指令注入技术(in-struction injection)在处理器中形成多个指令流实现。该方法利用指令注入逻辑从主线程生成R-1个冗余指令流,并为每条指令的R个拷贝分配连续的ROB(reorder buffer)单元分别进行解码并分派到功能单元执行,起到了重复执行的效果。当多个指令流的执行结果一致时,在处理器提交段又合成为一个指令流,即每条指令只提交一次;不一致时则利用分支回绕(branch rewind)机制将处理器恢复到正确状态。总之,指令重新执行的方式以时间为代价换取了处理器的高可信性。
(二) 指令重用IR(instruction reuse)
动态指令重用是一种非前瞻技术,原理类似于备忘录。指令重用利用程序本身固有的冗余特征,即一个静态指令的实例会以相同操作数多次执行,来消除处理器冗余计算提高性能。为降低其时间代价,人们把IR指令重用技术应用于容错领域。
如图2所示。重用缓冲(reuse buffer)包括一个操作码、两个操作数和一个执行结果。指令执行时会检索重用缓冲,命中则直接利用查找的结果进行提交;否则指令正常执行,并将指令执行结果写入重用缓冲。重用也可以在不同的级别实现,如块重用、踪迹重用等.
2容錯与低功耗技术的融合
和高性能一样,低功耗和可信性已经成为下一代处理器设计的两个重要指标.因此,正确地理解处理器中各组成部件的功耗与可信性的关系及其交互具有重要意义。人们对Cache中的功耗与容错交互问题进行了深入研究。Zhang等人提出一种通过保护复制数据实现低功耗的机制;Somani等人对使用频率高的Cache行进行保护降低功耗;Li等人在电路级和微结构级研究了可信性与低功耗的交互与均衡问题,并提出了一种自适应的、利用不同复杂度编码实现对Cache中干净数据(clean)和脏数据(dirty)保护的机制。Zhang等人提出了一种检测点(checkpointing)与动态电压调整DVS(dynamic volt-age scaling)相结合的方法在实现容错的同时对Cache进行动态功耗管理。功耗感知的(energy-aware)自适应检测点在任务级对功耗动态管理的同时实现了容错。不同的低功耗技术具有不同的可信行为,低功耗与可信性的交互与均衡已经受到业界的高度关注。
3性能/功耗/容错的交互
DVS控制策略机制网络处理器NP(network processor)的出现为路由器等高性能网络设备的构建提供了灵活、高效的平台,目前已成为嵌入式领域的热点。典型的NP集多处理与多线程技术与一身,在一个芯片中集成了多个利用包级并行性快速执行的可编程微引擎ME(micro engine)提供强大的网络处理能力。Intel公司的IXP1200是NP结构的代表,它由一个Stron-gARM处理器核、6个微引擎、一个标准内存接口和一个高速总线接口组成。随着主频的提高和复杂性的增加,功耗已经成为NP设计中的重要因素之一。在这样的背景下,Luo等人开发了一个基于IXP1200的定时准确的、开源的结构级性能/NP仿真框架———NePSim,在性能与功耗方面获得了满意的准确度。如图4所示,Luo模拟了DVS技术对降低功耗空间进行了优化,以0.5%的性能代价获得了8。1%的功耗收益。目前我们正在从事NP中性能/功耗/容错交互与均衡的深入研究。
六、结束语
本文研究分析后得出的结论是,处理器容错技术对于当今处理器的性能优化有很大的帮助,能够极大的提高处理器的使用效果,为用户提供更好的处理器,但是,对于处理器的容错技术,我们还需进一步的进行研究和分析。
参考文献
[1] 梁柱.网格与容错[J].科学咨询(决策管理). 2010(04)
[2] 蓝玉龙.提高计算机系统可靠性技术[J].广西教育学院学报. 2000(04)
[3] 周荣. 容错技术研究[J]. 商情(教育经济研究). 2008(05)