基于Venn-Abers算法的日志异常检测研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:skycliff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志被广泛用于检测现代大规模分布式系统中的异常。然而由于日志的急剧增加,过度依赖人工日志检查的传统异常检测变得不可能。为了减少人工工作量,近年来,以机器学习为代表的自动日志分析在日志异常检测领域得到了广泛研究,但是常规的分类方法只给出预测结果,缺乏对预测结果的有效性评估,即对预测结果的可信程度的评估以及对该评估有效性的保障。概率预测算法虽然可以提供预测结果正确的概率,然而这些算法过度依赖样本分布模型的假设,一旦假设的模型不正确,则预测争取的概率会下降,有效性的评估就无法保证。本文针对上述问题,首次在日志异常检测领域引入Venn-Abers算法,该算法可以在较弱的数据分布假设下给出预测结果正确的概率,并根据整体概率分布的特点进行日志的异常检测。主要工作分为两个部分:(1)Venn-Abers算法是一个灵活的机器学习框架,分别构造基于支持向量机(Support Vector Machine,SVM)、随机森林(Random Froest,RF)、逻辑回归(Logistic Regression,LR)的三种Venn-Abers预测器(SVM-VA、RF-VA、LR-VA),并对HDFS日志数据进行异常检测。首先从Venn-Abers算法自身的特性证明了概率预测的有效性,然后根据VennAbers算法得到的概率分布提出日志异常检测算法,最后和三种常规分类器的分类准确率进行比较,证明Venn-Abers算法的异常检测能力。(2)针对单模型性能的差异性,提出基于支持向量机(Support Vector Machine,SVM)、K近邻(K-Nearest-Neighbors,KNN)、决策树(Decision Tree,DT)、随机森林(Random Froest,RF)、梯度提升决策树(Gradient Boosted Decision Tree,GBDT)这五个常规分类器的Stacking多模型融合策略,并在此基础上对多模型融合的算法Stacking构造Venn-Abers预测器(Stacking-VA)。首先,从日志异常检测效果和检测误差方面对多模型融合算法Stacking和单个常规分类器进行验证,然后证明构造的Stacking-VA预测器比单模型的Venn-Abers预测器更能体现概率预测的有效性,最后根据提出的异常检测算法对Stacking-VA预测器的异常检测能力进行说明,并进一步得出Stacking-VA预测器比Stacking多模型融合在检测日志异常准确率方面提高2%。
其他文献
本文研究了一阶多智能体系统模型,同时针对该模型下具有某些约束下的多个智能体的特性做了详细讨论,提出了一些新的控制策略,并结合理论分析及数值仿真证明了该模型在新的控制策略作用下具有良好的稳定性。主要在三个方面做了如下工作:第一,讨论了具有时延的系统的分布式优化问题,基于“零梯度和”算法提出一个新颖的不依赖于虚拟领导者的控制策略,从理论上证明了所有智能体能够很快达到相同的状态,并以分布式的方式实现了全
学位
航空锂电池作为民机的应急电源和地面辅助电源在飞机上得以广泛应用,而其一旦起火后果会非常严重,为提高飞机性能,需开发更高能量密度同时更安全的锂电池体系。金属锂负极以超高的理论比容量,成为了下一代可充电高比能锂电池负极的最优材料之一。然而,金属锂负极表面不均匀且力学性能差的自发的固体电解质膜(SEI膜)会导致电沉积界面不稳定,引发电池失效甚至造成爆炸事故。故本文针对改性金属锂负极SEI膜,采用构筑原位
学位
空气涡轮起动机(Air Turbine Starter,ATS)是民用飞机起动系统的重要组成部件,为发动机的地面和空中起动提供动力,保障发动机起动安全。深入研究空气涡轮起动机的故障传播机理对于制定科学的维修方案、提高排故效率、降低维修成本具有重要意义。研究工作主要包括以下几个方面:首先,空气涡轮起动机基本结构及典型故障传播模式分析。对A320飞机普遍装备的霍尼韦尔公司GTCP131-9A/B型空气
学位
背景 目前,阿尔茨海默病尚无有效治愈手段,早期识别轻度认知障碍(MCI)、明确MCI预警敏感指标是目前研究的热点。目的 探究味觉识别能力下降与认知功能之间的关系,明确味觉识别能力下降在MCI早期识别中的价值。方法 2022年7—8月,采用便利抽样法在南京市某社区招募MCI患者30例,另选取性别、年龄、受教育年限与之相匹配的健康对照老年人(HC)32例。采用一般资料调查表、蒙特利尔认知评估量表-Be
期刊
在全球导航卫星系统(Global navigation satellite system,GNSS)的现代化应用中,定位技术的准确性和鲁棒性是定位系统的关键因素。伪距单点定位(Pseudo-range single point positioning,SPP)利用卫星的伪距观测量,仅一个接收机即可实现高鲁棒性的用户接收机瞬时定位。因此,伪距单点定位仍然扮演着至关重要的角色。但是,传统的SPP算法仅
学位
针对机场供油管网高可靠性和长寿命的服役要求,现有的机场供油管道在服役环境下性能劣化明显,迫切需要开展新的技术以提高管道的安全性。激光增材制造具有工序简单、不需要模具、成形精度可控等优点。本文对机场供油管网材料进行激光增材制造,制备具有高可靠性、良好综合性能的供油管网材料增材层。目前制约激光增材制造工艺发展的技术瓶颈是激光增材制造零件的成型质量和性能调控等。为了突破该技术瓶颈,论文开展了如下的研究:
学位
大型繁忙机场场面布局复杂,场面进离港航空器数量叠加造成机场长期处于高负荷运转状态,使得航空器由于滑行时间过长而导致的延误时有发生。同时,集成了空管、机场、航空公司三方数据的机场协同管理系统(A-CDM)的广泛使用为研究机场场面运行效率及预测航空器关键时间节点提供了数据基础。作为评价场面运行效率的关键指标之一,滑行时间预测的准确性不仅为优化航班推出时刻,提高离场时隙的使用效率具有重要作用,还可以为航
学位
筛查和早期干预轻度认知障碍(MCI)是预防和延缓痴呆的重要途径。电子化筛查工具较传统的纸笔量表效率更高,被推荐用于记忆门诊以推动数字化记忆门诊的建立。“G3认知风险评估”微信小程序是一款筛查我国老年人认知障碍风险的游戏化数字工具,通过3个基于认知范式设计的游戏化认知功能评估测试,多维度检测用户的认知功能和记忆力、计算力、视知觉等认知域水平,全程仅需3分钟,简洁、高效,并具有相当强的趣味性,可推广应
期刊
在飞机的服役过程中,结构损伤对其运行寿命与服役性能均有重要影响,常见的结构损伤包括外物损伤(Foreign Object Damage)、多部位损伤(Multi-site Damage)等。严重时,会对材料的抗拉、抗疲劳性能产生明显的削弱,进一步导致飞机结构服役寿命的降低。本文关注以2198铝锂合金作为蒙皮主要材料的,以国产C919为代表的一系列新型机型在经历一定飞行循环后的疲劳问题。本文基于数字
学位
综述脑卒中认知障碍的危险因素、筛查工具以及脑卒中认知障碍早期识别的影响因素,为临床医务人员脑卒中认知障碍的治疗和护理提供参考。
期刊