论文部分内容阅读
异常检测技术是一种重要的数据挖掘手段,被广泛应用于信用卡诈骗检测、入侵检测、疾病检测等各个领域。目前国内外研究学者从距离、密度、聚类等角度出发,提出了各种异常检测算法。然而现有的异常检测算法大都是针对静态数据,随着大数据时代的到来,数据流已经成为了主要的数据生成形式,如传感器及信用卡实时交易数据等。对于这种持续到达、数据到达的速度和数据量都可能是事先未知的、随时间动态演化的流式数据,至今没有有效的异常检测方法。本文以数据流异常检测为研究对象,主要集中在概念漂移下的数据流异常检测。当前的数据流异常检测算法大都把传统的异常检测算法扩展到数据流上,或者套用时间窗口模型,只专注于近期数据,从而简化数据流。这些算法不能有效聚焦当前数据流概念,而且孤立看待数据流异常,未能考虑其与数据流概念漂移之间的联系。基于当前数据流异常检测算法的相关问题,本文一方面从数据流原型学习的角度出发,提出一种基于原型的数据流异常检测算法。它能够动态维护数据流上的重要数据,从而突破时间窗口模型无法利用历史数据的限制。另一方面,本文研究了当前数据流挖掘模式,并提出一种考虑了数据流异常检测与概念漂移之间的互惠性关系的数据流分类框架。它通过实时刻画异常程度,融合了数据流异常检测和概念漂移检测这两个模块。这两个算法构成了本文的核心内容,本文的主要贡献如下:第一,提出基于原型的数据流异常检测算法。它基于数据密度在数据流上进行原型学习,而后根据同步压缩等策略动态维护一个对当前数据流有重要意义的两层的数据集合,并通过距离异常的定义对下一时刻的数据进行异常判断。第二,提出考虑异常检测与概念漂移内在关联的数据流挖掘框架,首先本文设计了一种从数据压缩角度出发的数据流异常检测算法和一种动态捕获数据流概念的概念漂移检测算法,而后通过实时刻画数据异常程度,实现两个算法的耦合,使得异常检测能够在不断更新的概念下工作,同时数据流学习算法能够屏蔽异常数据的影响,相互促进,形成一个良性循环,达到较高的分类性能。最后本文通过一系列数据集以及当前流行的数据流挖掘算法,验证了所提出算法的优越性。