论文部分内容阅读
系统日志数据对系统管理员管理系统和诊断系统问题起到了关键作用。随着数据的爆炸性增长,人工分析系统日志不仅耗费人力资源而且其分析速度已远远落后于日志生成的速度。使用基于机器学习方法的自动检测技术已成为目前解决系统日志异常检测问题的发展趋势。但是,基于传统机器学习方法在面对变化数据与类重叠数据时的效果并不稳定。随着系统的不断运行,日志反映了当前系统的状态,也产生了新的知识。因此,相对于以往的系统日志数据,当前日志数据发生了变化。为了适应不断变化的日志数据,本文提出了一种基于一致性预测算法的系统日志异常检测模型。将统计学习与机器学习的方法相结合,将一致性预测框架引入系统日志异常检测的问题中。相比于基于静态阈值的检测方法,一致性度量的统计学习方法可以动态适应不断变化的日志数据。并且针对一致性度量的统计学习方法计算效率低下的问题进行了改进。从而使得基于一致性预测算法的系统日志异常检测模型可以快速准确的检测系统日志的异常情况。由于系统日志数据的属性值过于相似,以致于无法准确划分决策边界,产生了类重叠现象。针对出现类重叠现象的日志数据,本文提出了一种基于集成学习的类重叠异常检测模型。首先计算了样本数据和不同类别隶属度之间的关系,并且利用模糊度将类重叠区域的数据提取出来,减小非类重叠部分数据对实验的影响。使用集成学习AdaBoost检测类重叠区域的日志数据。相比于传统的机器学习算法,AdaBoost通过迭代基础算法可以更好的对类重叠区域的日志数据进行分类,从而达到对系统日志的异常检测目的。