论文部分内容阅读
容错计算机系统是由一台或多台计算机按照一定的容错原则通过软、硬件资源冗余配置构成冗余结构的计算机系统,当系统出现一定的运行性、设计性故障时,能够依赖系统内驻的容错能力保证系统连续正确地执行其程序并输出正确的结果。Linux是类似于UNIX的操作系统,凭借其高安全性和高效、实时性而获得众多商业用户的青睐。信息时代的到来,计算机技术的广泛应用,在某些领域对计算机系统的可靠性要求愈来愈高,尤其是在Linux下实现系统的实时容错,因此在Linux下实现计算机容错系统和对Linux下容错技术的研究也显得越来越重要。
HNFTS-1是哈尔滨工业大学计算机系容错实验室立项开发的网络容错服务器,本文讨论的自检测模块是HNFTS-1的Linux版本的一个子模块。HNFTS-1是适用于野外作业和车载环境下的具有高可用性的网络容错服务器,在设计中采用了软件解决方案为主,附带硬件支持的双机容错系统解决方案;HNFTS-1网络容错服务器可以工作在两种模式下:双机热备份和双机互备援模式。该容错管理软件的各个支撑模块在中心管理模块——协同模块的集中管理和调度下,交互协作,共同完成对故障的检测和处理工作,满足系统的高可用性要求。
本文详细介绍了在Linux下实现容错系统的自检测模块的设计方法和具体实现过程。为了能更好的支持不断推出的新的硬件监控芯片,在程序的结构上采取了模块化设计,这是通过将一部分程序划分为模块单独编写来实现的,每个模块对应一种芯片,以采取不同的应对方法。同样的,访问系统管理总线时,对应着芯片组中不同的电源管理系统,其访问方法也是不同的,相应的程序代码也被划分为了模块。这使得通过编写新的模块来应对不断出现的新的芯片而不需对程序其他部分做出大的改动成为可能。在程序的输入输出部分采取了以命令行为主,用户输入运行模式参数为辅的交互方式。自检测模块的另一个特性是网络远程检测,而网络远程互检功能在商务领域有着重要的应用前景。