论文部分内容阅读
近些年来,卫星功能的复杂化对于星载计算机的性能和可靠性提出了更高的要求。当传统的采用抗辐照芯片设计星载计算机已经不能满足该需求时,商用现货(COTS,Commercial Off The Shelf)技术应运而生。该技术利用工业级或商业级芯片代替抗辐照芯片进行星载计算机的设计,它具有高性能、低功耗、低成本、体积小等优势。但是复杂的太空环境,对于基于COTS器件尤其是商用处理器的星载计算机的可靠性是一个严峻考验。本文从处理器可靠性加固技术和多机并行计算机系统容错策略两个层次分别对提高基于COTS技术的星载计算机容错能力进行研究。在处理器内部存在着大量的特殊寄存器,负责处理器甚至计算机系统其它功能部件的配置、控制和状态表示等功能。太空环境中的电子器件容错发生单粒子效应,同理寄存器内容会受到影响发生意外改变。本文通过模拟单粒子翻转,对特殊寄存器进行寄存器故障效应实验,将注入故障后导致处理器出现严重后果的寄存器定义为关键寄存器。然后提出一种基于动态迁移技术的寄存器保护方法,在不改变寄存器规模的前提下,对寄存器进行管理,用暂时空闲的寄存器为关键寄存器进行备份保护。通过寄存器故障效应发现,寄存器注入故障后,经常会触发异常。通过对较为普遍的非法指令异常进行研究,发现原始的非法指令异常处理过程最后会重启处理器,导致程序复算不可行。为了降低重启带来的巨大开销,本文提出一种基于卷回机制的非法指令异常恢复技术,利用检查点技术在出现该类异常时卷回到最近的检查点重新执行,从而降低异常处理代价。本文还从处理器阵列层次对基于COTS技术的多机并行计算机的容错策略进行了研究。通过构建多机并行计算机系统的体系结构,对多机系统容错调度策略进行研究,从多机系统底层的通信机制到上层的容错调度策略对两种系统进行设计。