论文部分内容阅读
高端容错计算系统是关键应用领域中的重要信息化设备,此类系统一方面具有较强的事务处理能力,另外一方面具有较高的可靠性,可长期提供高速、稳定的信息处理服务。高端容错计算系统中任何信息的丢失和破坏、异常停机都会产生重大影响,因而要求系统有连续运行的能力,即高可用性。本文以研究刀片服务器系统这样的高端容错计算系统为基础,利用双机容错系统的方法和技术,完成了其高可靠监控子系统的设计,从而达到了刀片服务器系统的高可用。监控子系统可以选择多刀片中的任意两个计算刀片,这样它们一起组成一个高可用的Leader层。监控子系统采用三模冗余的高可靠设计技术,使Leader层成为刀片系统的高可用的核心。监控子系统仲裁过程的成功与否是影响容错计算系统可用性的主要方面。当选择的两Leader刀片均正常时,服务的提供与单机系统几乎完全相同。只有发生严重故障时,Leader层可以进行重构,可以继续使用好的计算刀片对外提供服务,从而显示出相对于单机系统的优越性。但是如果仲裁过程不成功,则Leader层系统与单机系统相比没有任何优势。通过对仲裁过程进行了分析,建立考虑中间处理过程成功率的马尔可夫模型,并进行典型系统分析,综合热备份系统和互备援系统,得到结论:多刀片容错计算系统在对需要进行系统重构的故障进行处理中,故障检测、故障诊断两个过程是至关重要的。本文研究了常用的仲裁技术,分析了实际的系统需求与现有技术的冲突,在实际需求的基础上,提出了一种高可用的监控机制,在整个监控过程中提供硬件支持,完成了对高端容错计算系统高可靠监控子系统的硬件设计工作,实现了三模表决、CPLD、USB多路选择、热插拔等具体技术。