演化数据流的异常检测研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:youxiangzhuce126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络通信技术的飞速发展和应用领域的不断扩大,在传感器网络管理、金融风险分析、互联网流量管理和网络入侵检测等诸多领域里,处理的数据不再是有限存储的数据集合,而是短时间内大量到达,随时间动态变化的演化数据流。传统的数据库技术无法使用有限空间来快速处理这种海量、高速的数据流从而获取实时的有用信息。如何对这些场景中大量的数据流实时准确地进行异常检测以达到相关的应用需求已成为当前数据流挖掘的研究热点。由于演化数据流具有快速到达只能一次遍历的特征,数据流异常检测的最大挑战在于如何快速捕获数据流的实时变化并及时响应,从而得到近似的检测结果。本文综述了目前国内外关于数据流异常检测的研究成果;在分析现有研究成果的基础上,针对数据流的不同应用场景,分别提出了解决方法。针对中低维的集中式数据流,采用LOF算法和SR树索引结构结合的方法设计了SR IncLOF算法,特别针对高维的集中式数据流场景,提出了基于张量分解的异常检测算法;对于分布式数据流场景,构建了一个分布式的数据流异常检测模型,设计了结合核密度和微簇树数据结构的异常检测算法。通过不同类型数据集的实验验证了本文算法的异常检测性能相比其他同类算法都有较大的提高。本文的研究内容包括以下几个方面:针对基于密度的LOF算法所存在的不足进行改进,提出一种结合SR索引树的异常检测优化算法SR IncLOF算法,能够解决集中式的低中维数据流异常检测问题。该算法通过SR索引树来快速查找每个数据点的KNN集和KRNN集,采用局部异常因子LOF刻画异常程度,不但能够快速地增量更新,有效地解决了数据流的快速演化和一次遍历等问题,而且复杂度较低,支持实时要求非常高的数据流异常检测。针对高维的集中式数据流异常检测问题,分析了基于张量分解的高维索引技术,提出了基于张量分解的异常检测算法。该算法以张量的视角来模拟演化数据流,对此进行张量分解,基于张量分析来近似数据流的分布,并且通过自适应采样能得到关于数据流的最佳近似矩阵,易于实施。针对分布式数据流场景,提出基于核密度的分布式异常检测技术,提出了两种新的异常点定义,分别对应于基于距离和基于密度的异常分布。针对此问题提出两种有效的算法,第一个算法基于核密度估计技术来快速近似的获取数据流的分布,同时采取指数衰减技术解决数据流的时间演化;第二个算法结合微簇(micro-cluster)技术处理数据的划分问题。综上所述,本文针对演化数据流的不同应用场景,分别提出了不同的解决方案,通过理论分析和模拟数据集的实验表明,本文提出的算法具有较高的精度和反馈率,并且时间复杂度和空间复杂度较低,更加适用于演化数据流场景。
其他文献
本文主要探讨求解约束非线性规划问题的光滑牛顿法及Minimax问题的SQP-Filter算法.   第一章,我们提出了求解等式和不等式约束非线性规划问题的一种新的光滑牛顿法.这种方
近年来,关于插值逼近的问题,人们提出了一种新的方法:径向基函数插值.径向基函数插值不需要明确的目标函数表达式也不需要导数信息,只需要选择一个径向基函数,并且利用较少的
芬斯勒几何中的Ricci曲率是黎曼几何中Ricci曲率的自然拓广,在芬斯勒几何中扮演着十分重要的角色。近年来,关于Ricci曲率的研究受到越来越广泛的关注。本文主要在一定的Ricci曲
信息技术在教育中起着越来越重要的作用,信息技术课的教学目的是提高学生操作计算机的能力和运用信息技术解决实际问题的能力.信息技术教育对学生今后的科学技术学习和日常生
P2P作为一种新兴网络计算模式,具有容错能力强、自组织、可扩展性好等优点。同时P2P技术也是目前国际计算机网络技术领域研究的一个热点,被《财富》杂志誉为将改变互联网未来
幂等元半环的代数理论现今是活跃的代数学研究领域之一.本文研究了几类含有幺元素的幂等元半环的一些性质和结构,以及半环上如何加入幺元素.主要结果如下: 1.研究了四类含幺幂
人工智能在实际的应用研究中,其本质为求解不确定性问题的能力。因此,不确定性推理模型则是人工智能的核心研究课题。动态因果图理论,是一种基于概率论的知识表达的不确定性
高压输电线路是电力系统传输电能的大动脉、是联接电厂和用户的纽带。输电线被犯罪份子盗割后,如果能够快速、准确的查找出盗割点,就可以严厉打击盗割电力输电线路的犯罪行为,同时还可以将经济损失降低的最低点。传统的方法是利用巡防队员巡线的方式,查找时间长,人力物力消耗很大,而且还不能及时的找出电线被盗割的点,不能及时的向有关部门报警,使犯罪分子有机会逃脱。本文利用重合闸行波脉冲来实现对盗割点检测,该方案能在
本文主要研究了二次与三次数域及其整数环的结构与性质.全文分为两个部分,在第一部分,本文在已有文献的基础上,对一个二次整数环Z[u]={a+bu|a,b∈Z}进行了研究,利用最优化理
学位