面向数据流的异常检测技术研究

来源 :南京信息工程大学 | 被引量 : 4次 | 上传用户:ncufox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络空间安全始终是研究者关注的重点,尤其是在网络设备升级,宽带提速的今天,如何在复杂的网络数据流下,有效地发现异常数据是当前安全领域的主要问题之一。传统的面向静态数据集的数据挖掘算法首先将数据集全部加载到内存,通过对数据集的多次遍历以建立静态的分析模型,这个过程需要大量的时间和空间开销。数据流具有数据分布动态变化、数据体积潜在无穷、数据持续到达等特征。这些特征要求数据流挖掘算法能够在有限的内存下通过单次遍历数据建立初始模型,且该模型能够及时地对后续到达的数据做出相应处理,动态调整以适应变化的数据流。现有的异常检测技术大多基于传统的数据挖掘算法,虽然能够在静态的数据集上获得较好的结果,但是无法应用于动态的数据流环境。基于上述分析和比较,本文针对数据流环境下的异常检测技术进行相应研究,并做出如下工作:(1)本文阐述了数据流的概念和定义,分析了动态数据流环境对挖掘算法的要求和存在的问题,总结了数据流挖掘的主要任务和常用算法。数据流是一个由连续的数据对象构成的序列,这些数据通常持续到达,具有高维特征,潜在的数据分布存在变化。相较于传统机器学习技术,数据流挖掘算法通常只记录数据粗略的统计信息,单次访问数据,并增量式更新模型。(2)本文结合数据流聚类的特点和异常检测任务的需要,提出了基于数据流聚类的异常检测模型。数据流聚类只能够动态发现数据的分布状态,而不能实现对数据的异常检测。本文提出的异常检测模型受数据流聚类启发,由在线聚类模块和离线检测模块两个部分组成。在线聚类模块能够提取和记录数据的概要统计信息,解决了数据体积增长带来的存储问题,动态调整微簇结构以适应数据分布的变化。离线检测模块根据在线模块维持的聚类信息,使用相似性或差异性度量方法,实现了对异常数据的实时检测。(3)本文通过分析不精确概率对决策树分裂属性选择的影响,结合已有的Hoeffding Tree算法,提出了一种基于不精确概率的异常检测算法。该算法引入不精确狄利克雷模型,计算Credal集合的最大熵值,从而估算在无穷样本时,分裂属性所产生的真正熵值变化。改进后的算法能够选择最佳属性进行分裂,并及时停止冗余子树生长,避免了模型的过拟合。该算法能够有效降低节点数量,保持Hoeffding Tree算法的分类效果,进而获得较高的异常检测准确率。同时,该算法数据处理速度较快,也能够满足高速数据流环境下异常检测任务的需要。
其他文献
俗话说,好的开头等于成功的一半。八年级是物理学科学习的起始点,更是一个关键点,它直接关系到学生以后对物理学习的兴趣,所以无论是老师还是学生都要从心理上重视。笔者在多年的
凌晨的叙利亚代尔祖尔上空,以色列空军的战机飞行编队借助机载编队灯的微弱光线保持着攻击队形,飞行员将挂架上的GBU-12"宝石路"激光制导炸弹保险解除,耐心地等待地面"翠鸟"突击
在全面回顾高绩效工作系统的文献基础上,通过实证研究探索高等学校高绩效工作系统的内容结构,对高校开展高绩效人力资源管理实践提供了重要参考。
高速公路交通工程是主体工程的附属设施,主要包括了房建、机电、安全设施以及其他配套工程,对高速公路开通、收费以及管理养护有重要的意义,是高速公路不可或缺的功能性工程。文
<正>十九大报告中提出"坚持以人民为中心的发展思想,努力抓好保障和改善民生各项工作,不断增强人民的获得感、幸福感、安全感,不断推进全体人民共同富裕",反映出社会保障对于
采用重要值作为多样性测度指标,计算了物种丰富度指数S、多样性Simpson指数、Shannon指数、均匀度Pielou指数和Alatlo指数.分渭北黄土高原、秦岭北坡、巴山地区三区,研究了陕西
目前的媒体市场正处于重新整合的动荡阶段,这是文娱类报纸借助混乱形势异军突起的机遇,也是对其在种类繁多的新兴媒体挤压中维持生存和发展的挑战,文娱类报纸应对新格局的首要措
【教学准备】教师:多媒体课件、游戏道具等:学生知识储备:了解劳动号子、弱起拍子。【教材内容分析】本课选于湘版音乐教科书七年级下册第一单元《乘着歌声的翅膀》中的《众
坡耕地是耕地资源的重要组成部分,有着巨大的资源利用潜力。采用专题调查方法,通过构建坡耕地坡度特征指数等分析方法,对河南省坡耕地现状进行了定量分析,结果表明:2010年,河
目的探讨P63蛋白在桥本甲状腺炎(HT)合并甲状腺乳头状癌中的表达及意义。方法运用免疫组织化学方法检测29例HT合并甲状腺乳头状癌标本、20例HT标本及20例正常甲状腺组织标本