概念漂移下的数据流异常点检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhangfei0960
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测技术是一种重要的数据挖掘手段,被广泛应用于信用卡诈骗检测、入侵检测、疾病检测等各个领域。目前国内外研究学者从距离、密度、聚类等角度出发,提出了各种异常检测算法。然而现有的异常检测算法大都是针对静态数据,随着大数据时代的到来,数据流已经成为了主要的数据生成形式,如传感器及信用卡实时交易数据等。对于这种持续到达、数据到达的速度和数据量都可能是事先未知的、随时间动态演化的流式数据,至今没有有效的异常检测方法。本文以数据流异常检测为研究对象,主要集中在概念漂移下的数据流异常检测。当前的数据流异常检测算法大都把传统的异常检测算法扩展到数据流上,或者套用时间窗口模型,只专注于近期数据,从而简化数据流。这些算法不能有效聚焦当前数据流概念,而且孤立看待数据流异常,未能考虑其与数据流概念漂移之间的联系。基于当前数据流异常检测算法的相关问题,本文一方面从数据流原型学习的角度出发,提出一种基于原型的数据流异常检测算法。它能够动态维护数据流上的重要数据,从而突破时间窗口模型无法利用历史数据的限制。另一方面,本文研究了当前数据流挖掘模式,并提出一种考虑了数据流异常检测与概念漂移之间的互惠性关系的数据流分类框架。它通过实时刻画异常程度,融合了数据流异常检测和概念漂移检测这两个模块。这两个算法构成了本文的核心内容,本文的主要贡献如下:第一,提出基于原型的数据流异常检测算法。它基于数据密度在数据流上进行原型学习,而后根据同步压缩等策略动态维护一个对当前数据流有重要意义的两层的数据集合,并通过距离异常的定义对下一时刻的数据进行异常判断。第二,提出考虑异常检测与概念漂移内在关联的数据流挖掘框架,首先本文设计了一种从数据压缩角度出发的数据流异常检测算法和一种动态捕获数据流概念的概念漂移检测算法,而后通过实时刻画数据异常程度,实现两个算法的耦合,使得异常检测能够在不断更新的概念下工作,同时数据流学习算法能够屏蔽异常数据的影响,相互促进,形成一个良性循环,达到较高的分类性能。最后本文通过一系列数据集以及当前流行的数据流挖掘算法,验证了所提出算法的优越性。
其他文献
图像显著区域的检测与提取是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。对于图像的显著区域检测是十分有用的,如图像分割,自适应压缩,基于区域的图像检
神经网络一直以来都是学术界研究的热点,而伴随着图形硬件的更新换代,目前基于深度学习的神经网络再次在各个领域取得丰硕成果。然而这些人工神经网络处理信息时并没有完整的
近年来,随着社会城镇化和人口老龄化的逐步推进,城镇和农村居民就医难、就医手续繁琐等一系列问题不仅体现在医疗资源的匮乏和社会保障的缺少方面,而且在公共服务保障措施方面的
随着数码摄像设备如数码相机、智能手机的普及,数码图像数量极速增长,每天数以亿计的照片被上传到互联网。面对海量的图像数据,如何将海量图像数据进行存储以及如何对其进行
随着互联网的发展,网络已经融入到人们的工作和生活中,网络管理也得到了快速的发展,现在的网络管理在功能上越来越完善,但网络管理系统的操作也变得越来越复杂。本文采用层次化的
无线射频识别技术(RFID, Radio Frequency Identification)是一种无线通信技术,其碰撞问题日益得到关注。阅读器与标签之间能否正常通信,阅读器能否准确的读取标签的内容决定
本文首先介绍了压缩感知理论框架,着重回顾了压缩感知重构算法的研究和应用现状,针对其本质是l0范数问题,将对直线边缘稀疏表示性能好的脊波(Ridgelet)冗余字典和遗传进化(Ge
随着互联网技术的迅猛发展,网络逐渐覆盖到了社会生活的各个角落。在互联网环境中,传统的身份认证方法面临巨大的挑战,越来越无法适应实际应用环境的需求。在所有的身份认证
互联网技术的发展使信息以前所未有的速度增长和传播。随着网络数据爆炸式的增长,在网络中快速、准确地定位到自己想要查询的信息成为Web搜索领域的一项挑战。尤其是在赞助商
欠费现象已成为世界各国邮政业的一大顽疾,邮政企业在业务收入快速增长的同时,用户欠费也逐年增多。对欠费的有效控制和管理也就成了众多公共事业大型企业急需解决的重要课题。