面向机群故障诊断的日志管理和分析技术

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:liyuanboliwenya2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机群系统凭借其良好的易构建性和可扩展性,无论是在高性能科学计算领域,还是在商业计算领域,都得到了广泛的应用。但是随着机群系统硬件规模的不断扩大以及应用的复杂化,系统出现故障的概率增加[4]。机群监控和故障诊断是保障机群系统可靠性和可用性的重要手段。传统监控系统只提供相对简单和单一的监控信息,缺乏对监控日志的有效管理和分析,不能有效地帮助人们分析机群系统故障的原因。机群的监控日志信息包含了系统运行状况以及运行规律,而应用程序日志反映了应用的运行状况,这些日志信息对于深入分析系统失效规律和失效模式,分析应用程序的故障,起着非常重要的作用。   如何管理和分析这些日志,从而快速的发现和定位系统的故障模块,减少故障恢复时间,提高系统的稳定性,成为当前机群系统研究的问题之一。其中首先要解决的问题是,如何管理大规模的历史日志数据。本文首先对这个问题进行了研究。   机群管理软件Phoenix是一个多模块系统。在模块交互的过程中,某些模块经常会失效导致整个系统出现故障。基于此,本文研究的另一个问题是,实现一种基于应用级日志的是失效分析方法,分析Phoenix运行中出现的问题,提高Phoenix系统的可靠性和可用性。   针对以上两方面的问题,本文主要研究机群系统及其应用的监控和日志管理框架,包括机群系统的监控日志和与特定应用相关的应用级日志,帮助用户实时监控系统状态,同时为故障分析提供数据源,为进一步深层次挖掘失效模式和失效规律,进行故障诊断提供基础设施。其次,本文针对Phoenix系统特定的应用,以应用级日志为线索,实现了基于应用级日志的故障分析系统框架,分析系统的失效。   本文主要工作包括以下几个方面:   1、机群系统监控和大规模监控日志管理。   针对已有的监控系统存在的问题,提出了自己的监控模型,并实现大规模数据管理和检索机制,管理机群大规模历史数据,为深层次的数据挖掘、分析系统失效规律和失效模式提供数据源。   2、应用级同志管理框架。   实现了应用级日志的接口和日志管理框架。定义规范的日志格式和日志接口,使应用程序产生规范的日志,为分析系统应用故障提供基础。   3、基于应用级日志的失效分析方法。   实现了基于应用级日志的日志分析框架,针对Phoenix的特定应用,分析系统故障。
其他文献
人体姿态检测,即通过计算机在一幅包含人体的图像中自动地检测出人体,即输出人的整体或者局部肢体的结构参数,如人体轮廓、头部的位置与朝向、人体关节点的位置与部位类别。人体
新的计算模式,普适计算和全局计算,正在作为高度分布式和移动计算的计算模式展现出来。这篇论文探讨了在抽象层面上支持这些新型计算模式的适合的形式化基础,关注在进程移动单位
随着计算机技术的迅速发展,图像、声音等多媒体数据已经成为信息处理领域主要的信息媒体形式。特别是视频数据,由于能记录、再现空间和时间上的各种信息,使得人们能更加方便地获
串联质谱(Tandem Mass Spectrometry)是蛋白质序列鉴定的重要方法,其目标是从实验质谱来推断未知肽段的氨基酸序列。在此过程中,如何从一个肽段序列精确地预测出对应的理论质谱
虚拟机就是由真实机器和软件所组成的一个虚拟环境,虚拟机及相关优化技术的研究,在遗产代码移植、硬件设计、程序性能提高、网络应用、系统安全等方面都有重要的意义,已经成为是
继续表示程序在某个执行状态下的剩余计算抽象。继续在计算机科学的各个分支中都有重要的应用。本文讨论继续在程序设计语言中的理论与应用。   继续传递风格(CPS)变换是
本文研究了计算复杂性中的几种归约方法,应用它们刻画了一些计数问题的计算复杂性,或者给出了多项式时间算法,或者证明其是#P完全的;研究了匹配线路和匹配门的性质。   多项式
随着Internet规模的扩大和网络应用的普及,网络安全问题日益突出。为了实现对敏感数据的保护,同时打破企业内部网的职能范围在物理位置上的限制,虚拟专用网(Virtual Private Net
中国的海岸线长度超过18000公里,频繁的遭受暴雨、雷暴等强对流天气的侵袭。这些自然灾害往往给社会和经济带来巨大的损失。中尺度对流系统(Mesoscale Convective System,MCS)
随着集群技术和网络技术的飞速发展,网络存储系统成为解决集群I/O性能瓶颈的主要手段之一。集群文件系统作为网络存储系统的核心技术,很好地解决了传统文件系统中存在的性能、