论文部分内容阅读
星载计算机设备运行于外层太空中,容易受到空间强辐照射线对电子设备产生的各种效应影响,产生各种软硬件故障,因此需要运用容错技术手段来保证其对可靠性的高度要求。容错技术是提高可靠性、保证系统能够全天候工作的关键技术。使用了容错技术的星载计算机系统在发生硬件故障或软件错误的情况下仍然能够正确执行指定的任务。本文设计了一种新型的星载多机并行系统,并对其进行了原型机的实现。该星载多机并行系统采用分布式的多节点并行体系结构,具有良好的重构能力和一定的通用性。配合该结构,设计了基于层次式容错故障检测恢复机制的多种容错策略,可以对单粒子效应等由空间恶劣环境引起的故障进行容错处理,有效地提高了系统的可靠性。本文的主要工作和创新点如下:①设计了一种动态主从式的多节点并行星载计算机体系结构。该系统的特点是不含专门的集中式管控部件,所有系统的管理控制功能可由分布式的各节点共同制定策略实现。②在该体系结构中,提出了后备主节点的概念,用来负责监控主节点的状态,同时在主节点失效时接替主节点的工作,增强了系统的可靠性和容错恢复的实时性;提出了全局状态信息表的概念以及其在多机并行体系下的存储访问方式;设计了多机并行体系下的节点间故障监控通信的概念和类型。③通过故障模式影响分析(FMEA)对星载多机并行系统的故障发生情况和类型进行了系统的分析归纳,在此基础上针对性地设计了一套层次式的容错故障检测恢复机制,并围绕该机制进行了各种容错恢复策略的研究性工作。④在VxWorks开发平台对星载多机并行系统进行了原型系统的设计与实现。通过平台模拟器模拟了其底层的硬件体系结构和基本运行机制,在此基础上开发实现了各种容错恢复策略程序。⑤利用随机Petri网(SPN)分析工具对星载多机并行系统进行了建模及性能分析。