论文部分内容阅读
随着计算机系统规模越来越大,用户对计算机系统的可靠性和可用性要求越来越高;集群系统因其良好的性能、易构建性和可扩展性己成为大规模生产性计算平台的首选。但大规模集群系统的系统错误和失效也成为一种常态,集群系统的可靠性与可用性问题成为集群系统应用的一个重要障碍。
系统日志的事件序列模式是系统日志中频繁出现的有序事件序列,事件序列关联规则是在事件序列模式基础上满足一定主客观兴趣度的事件关联知识。本文通过挖掘大规模集群系统日志的事件序列模式和关联规则,分析日志中失效前的征兆事件和失效之间的关联和规律,并将事件关联知识用于系统事件预测和失效预测。本文的主要贡献如下:
(1)提出和实现了基于重叠窗和事件密度自适应滑动窗口的日志划分算法。本文首先在滑动窗口模式中引入事件密度概念,避免由于滑动窗口中事件数目过大引起序列模式挖掘时空复杂度急剧增大的情况;然后使用结合重叠窗的事件密度自适应滑动窗口的日志划分方法来生成事件序列库,能防止将几乎同时发生的多条事件截断到两个序列中去。
(2)结合日志时间局部性提出了PrefixSpan-ESD序列模式挖掘算法,实现了强事件序列关联规则和失效事件序列关联规则的挖掘和分析。基于主客观评价指标,本文定义强事件序列关联规则同时满足最小支持度和最小置信度阈值,失效事件序列关联规则最后一个事件的类型为失效类型。实验结果表明,基于PrefixSpan-ESD的关联规则挖掘算法在一次扫描时可生成多元事件序列模式,关联规则的分析时间为Apriori-T算法的10%-20%,适用于分布式并行挖掘,提高了规则分析的时空效率。
(3)根据事件序列关联规则进行日志事件预测;从事件序列模式聚类中挖掘出事件之间的因果关联路径,抽取出失效模式用于失效预测。将事件序列关联规则用于事件预测的准确率、召回率和F-measure值表明,PrefixSpan-ESD挖掘算法比Apriori-T和Apriori-S算法得到规则用于预测的效果更好;将失效模式用于失效预测,能显著提高失效预测的召回率。