论文部分内容阅读
当今信息化系统日益复杂,需求的不断变化以及各系统之间越来越多的整合,使得系统可靠性成为制约复杂系统发展的瓶颈所在。如何在系统运行时构建故障树,及时监控系统各个组件状态,以树形的图形化方式展现各个组件状态,当组件出现故障时及时被诊断并自动恢复是提高复杂系统可靠性的重要也是最有效的方式之一。通过对分布式业务系统的各个组件进行监控,并构建软件故障树,定义各个节点之间关系以及算法,从而当故障发生时下一层节点状态向上一层汇报状态,通过一层层节点状态的汇报最终了解系统的状态,并通过友好的图形化界面展示;通过定义诊断接口以及时了解各个节点状态,并且当节点状态出现异常时能够以邮件方式通知管理人员;通过定义和实现统一的恢复接口,使得当节点状态为出错时能够执行这个恢复功能。本文的研究工作的成果和意义在于,在多个服务器集群的环境中,通过软件故障树构建能够以图形化界面及时收集各个服务的各种日志事件以及了解整个系统及各个节点的状态,并且故障树节点发生故障时能够自动发生修复功能,从而最终提高了系统的高可靠性。本文还还探讨了如何提高系统在的可靠性采取了一系列措施,这次措施不仅在硬件而且在软件上,并对系统的可靠性进行定量的评估。最后通过在美国摩托罗拉公司的公共安全系统PremierOne的应用,验证了该设计能够在现实的运行的系统中实时对故障树节点实现故障检查,显示诊断结果,以及实现自动恢复的功能,并最后实现了系统99.9999%的可靠性。考虑到实际业务需求的不断变化,本文充分考虑到可扩展性,从而很好的对新的业务组件进行监控。