论文部分内容阅读
随着ARM处理器性能不断提升,同时又兼顾低功耗、体积小的特点,嵌入式计算密集型应用越来越多。鉴于计算密集型领域系统的可靠性要求高,因此如何设计高可靠性嵌入式系统成为一个至关重要的课题。检查点机制和双机容错机制是提高系统可靠性的有效途径,检查点机制可以缩短任务恢复时间,通常应用于通用计算机数据计算领域,双机容错机制可以容忍永久故障。传统意义上的嵌入式双机容错系统并没有考虑到检查点机制,一旦计算机出现瞬时故障任务只能从程序起始位置运行,这样程序恢复代价大,仅适用于工控领域和其他不需要连续计算的领域。由于计算密集型程序运算时间长,并且不能被打断,因此传统双机容错系统已不再适用。本论文根据嵌入式系统的特点,以传统的双机容错系统为基础,结合检查点机制,提出了一种能够运用到嵌入式计算密集型领域的双机容错系统。检查点设置时间间隔的长短直接影响系统的可靠性和额外开销率。本文在研究影响系统可靠性因素、检查点机制以及双机容错机制基础上,分析瞬时故障和永久故障的特点,根据马尔可夫过程提出两个检查点设置优化模型:一个是基于任务截止时间的检查点时间间隔优化模型,它可以研究在截止时间到来之前任务完成的概率;另一个是基于多级检查点的时间间隔优化模型,它在前一模型基础上进行改进,引入二级检查点从而缩短故障检测时间。当二级检查点工作时间较短时,基于多级检查点时间间隔优化模型明显优于前一模型。接着以基于多级检查点时间间隔优化模型为指导,实现了基于最优检查点的嵌入式双机容错系统,它可以修复瞬时故障和容忍永久故障,并着重介绍了设计和实现过程。检查点保存进程信息时,I/O操作次数较多,本文提出写缓冲优化算法,减少I/O操作次数,以提高检查点性能,经过测试写缓冲优化算法最大可以达到36%性能提升率。最后,本文以两个计算密集型算法(矩阵相乘和SUSAN算法)为例进行系统测试,表明最优检查点设置算法能够明显提高嵌入式计算密集型应用下双机容错系统的可靠性。通过本课题的研究,对构建瞬时故障和永久故障不可忽略的、面向计算密集型应用的嵌入式系统有一定的理论和应用价值。