基于集成学习算法的异常检测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xuzhonghai01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测是一个涉及诸多研究领域和应用场景的重要问题。大多数关于异常检测的研究都是在特定的应用场景下进行的,例如网络环境中的入侵检测、金融行业中的信用卡欺诈检测等。多数应用场景中都存在着异常重要性分不均的问题,如何刻画异常的重要性,并设计能灵活处理不同重要性异常的检测模型,成为一个重要的问题。另外,隔离森林作为一个时间复杂度很低的异常检测模型,无法有效的处理复杂异常,如何提高其复杂异常的处理能力也是我们着重解决的问题。学术界和工业界已经存在多种处理异常检测问题的方法。然而大部分基于机器学习的异常检测研究都关注单一模型,单一模型在抗过拟合能力上存在一定的不足,作为近年来机器学习领域的热点,集成学习模型有着良好的泛化能力,而且在大量实际应用中展现出比单模型更好的预测准确性。本论文在前述背景下,研究如何合理应用集成学习思想解决异常检测中的上述问题。主要贡献如下:●提出一种基于梯度提升的、可自定义重要性指标的异常检测模型。模型通过改进梯度提升算法,设计带权损失函数来刻画不同异常类别的重要性,解决异常检测中异常重要性分布不均的问题。●提出基于重要性敏感加权随机森林和重要性敏感平衡随机森林的异常检测模型。模型通过将异常重要性分布不均的问题映射到类别分布不均的问题上,利用加权和平衡随机森林来处理异常检测问题。●提出一种基于异常敏感划分标准的隔离森林异常检测算法:该算法是对隔离森林的一种改进,在子决策树的构建过程中,提出了一种对异常敏感的节点划分标准,进而提高异常检测的准确性。本文使用KDD’99、NSL-KDD等若干数据集对上述提出的模型进行实验,并通过对实验结果的分析来验证算法的有效性。
其他文献
在浩如烟海的古籍资料中发掘有价值的信息和知识一直是人文科学和社会科学领域面临的重要挑战。应对这一挑战的艰巨性伴随古籍数字化进程和数据库技术的发展而有所缓解。然而
<正>一、问题的提出我国大教育家孔子提倡"知之者不如好之者,好之者不如乐之者";[1]美国教育家杜威(Dewey)倡导让儿童"从做中学";[2]有着幼儿教育之父之誉的福禄贝尔(Froebel
<正>中等职业教育是我国高中阶段教育的重要组成部分,担负着培养高技能劳动者的重要任务,是我国经济社会发展的重要基础。近年来政府逐步加大了对中职院校的投资,越来越重视
菜勺是常用的烹煮工具之一,当使用菜勺进行烹饪时,需涉及到上肢的运动,特别是重复性的关节屈曲、旋转活动极易造成累积性工作伤害。研究通过设计模拟菜勺勺汤实验,利用VICON
中石油日前召开的股东大会通过了2009年1000亿元的融资计划,该融资计划比此前公告的1500亿元有所缩减。在股东大会间隙,公司总裁周吉平称:“这1000亿的融资将以债务融资为主,主要
物理属于较为基础的课程之一,其实践性相对较强,在中职物理教学过程中,把握学生心理特点,能够有效提升该项教学活动的质量。而中职院校学生由于物理基础相对较差,所以对物理
在教学中,我发现不少学生对英语阅读不感兴趣,这就需要我们教师要巧妙应用新型教学法,激发学生的学习动机。在学生的英语阅读理解过程中实施分层训练,有利于培养学生的阅读理
财政部日前公布有关通知,明确了企业重组业务所涉及的企业所得税处理有关问题。企业重组的税务处理区分不同条件分别适用一般性税务处理规定和特殊性税务处理规定。
新经济发展需要更多的高素质人才,大学体育教学应不断创新改革,与职业能力培养相融合,凸显高校体育教学特色,培养高素质人才,服务学生的就业和发展,推动我国社会经济健康发展
移动网数据业务多发生在室内,随着4G用户的快速发展,LTE无线网的深度覆盖能力成为决定用户口碑的关键因素,本文通过L900基站试点开通后各场景的覆盖能力对比,为L900网络规模建设,