论文部分内容阅读
机群系统凭借其良好的易构建性和可扩展性,无论是在高性能科学计算领域,还是在商业计算领域,都得到了广泛的应用。但是随着机群系统硬件规模的不断扩大以及应用的复杂化,系统出现故障的概率增加[4]。机群监控和故障诊断是保障机群系统可靠性和可用性的重要手段。传统监控系统只提供相对简单和单一的监控信息,缺乏对监控日志的有效管理和分析,不能有效地帮助人们分析机群系统故障的原因。机群的监控日志信息包含了系统运行状况以及运行规律,而应用程序日志反映了应用的运行状况,这些日志信息对于深入分析系统失效规律和失效模式,分析应用程序的故障,起着非常重要的作用。
如何管理和分析这些日志,从而快速的发现和定位系统的故障模块,减少故障恢复时间,提高系统的稳定性,成为当前机群系统研究的问题之一。其中首先要解决的问题是,如何管理大规模的历史日志数据。本文首先对这个问题进行了研究。
机群管理软件Phoenix是一个多模块系统。在模块交互的过程中,某些模块经常会失效导致整个系统出现故障。基于此,本文研究的另一个问题是,实现一种基于应用级日志的是失效分析方法,分析Phoenix运行中出现的问题,提高Phoenix系统的可靠性和可用性。
针对以上两方面的问题,本文主要研究机群系统及其应用的监控和日志管理框架,包括机群系统的监控日志和与特定应用相关的应用级日志,帮助用户实时监控系统状态,同时为故障分析提供数据源,为进一步深层次挖掘失效模式和失效规律,进行故障诊断提供基础设施。其次,本文针对Phoenix系统特定的应用,以应用级日志为线索,实现了基于应用级日志的故障分析系统框架,分析系统的失效。
本文主要工作包括以下几个方面:
1、机群系统监控和大规模监控日志管理。
针对已有的监控系统存在的问题,提出了自己的监控模型,并实现大规模数据管理和检索机制,管理机群大规模历史数据,为深层次的数据挖掘、分析系统失效规律和失效模式提供数据源。
2、应用级同志管理框架。
实现了应用级日志的接口和日志管理框架。定义规范的日志格式和日志接口,使应用程序产生规范的日志,为分析系统应用故障提供基础。
3、基于应用级日志的失效分析方法。
实现了基于应用级日志的日志分析框架,针对Phoenix的特定应用,分析系统故障。