基于滑动窗口模型的数据流离群点检测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tfgzs888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流挖掘是当今的热点问题之一,具有广阔的发展前景。离群点检测是数据挖掘的基本任务之一,具有非常重要的研究价值,始终受到研究人员的重视。虽然传统静态数据集的离群点检测已经取得了十分丰硕的成果,但是其处理方法不能直接应用于数据流之中,因此,数据流中离群数据挖掘问题亟待解决。本文借鉴数据流挖掘已有的处理方式,提出了基于滑动窗口模型的数据流离群点检测算法,并对其做了进一步的优化处理。本文的主要研究成果包括以下方面:①首先回顾了数据挖掘的研究现状,叙述了数据挖掘的功能、过程以及应用价值。其中着重介绍了离群点检测的意义,并对其方法进行了分类概括。为了挖掘数据流中的离群数据,本文分析了数据流的特点,并且总结了对其进行挖掘时常用的处理模型。②对目前比较重要的数据流离群点检测方法——基于聚类的方法和基于距离的方法,分别进行了简要的介绍,并对它们的优点和不足进行了分析和总结。③在前人研究成果的基础之上,提出了一种基于滑动窗口模型的数据流离群点检测方法SODS。该方法使用简单的滑动窗口对数据流的新旧数据更迭进行有效管理,其正确性是可以接受的。由于算法采用的数据结构有效地降低了近邻集统计时的计算量,并且在离群点查询处理时利用安全点概念进行精简,使得该算法的时间性能要好于同类算法。④以SODS算法为基础,提出了剪枝算法SODS1,有效地削减了冗余计算,提高了算法时间性能;对滑动窗口添加缓冲机制,得到了BSOD算法,避免对窗口边界附近数据点的近邻集进行统计时的不公平现象,有效降低了算法的误判率。论文中提出的算法采用真实数据集进行实验,分别从检测率、误判率以及单点平均处理时间和查询响应时间进行了比较分析。实验结果表明,算法SODS具有很好的正确性和时间性能;算法SODS1在窗口宽度不断增大的过程中,时间性能逐渐好于SODS算法;算法BSODS的响应时间要长于SODS1算法,但是并不明显,而误判率却得到了很好的控制,要明显低于SODS1算法。
其他文献
随着Web服务技术的迅速发展,越来越多的Web服务运行在Internet上,但单个Web服务功能有限,难以满足日益增长和不断变化的用户需求。因此,如何将已有的、运行在异构平台上的Web服务
近些年来,随着软件系统规模的庞大、复杂,软件系统功能的改进,软件版本的不断更新,人们对软件质量的要求也不断提高。软件可靠性作为衡量软件质量的关键性指标变得越来越重要。本
在人们不断加深对网络应用的依赖性的同时,网络的可用性逐步成为人们关注的重点。其中让网络管理人员广为熟知却难以应对的网络可用性攻击之一便是DDOS攻击。在复杂多变的网
智能交通系统是利用尖端的电子通信技术,形成人员、公路和车辆三位一体的新公路交通系统的总称。交通管理与控制系统是智能交通系统领域当中一项重要的研究内容,而交通流量预
光在自然界传播时,由于物理规律以及不同物质具有不同的折射率散射率等光学特性,就会产生丰富多彩的视觉效果,比如阴影、表面高光、环境光遮挡以及一些材质的半透明效果等。
人脸识别技术是一种重要的生物特征识别技术,因其友好、直接等使用特点已广泛应用于安全、商业等许多领域。人脸识别系统涉及大量数据的比对操作,对于人脸数据库较小的识别系统
中文语料库的分类与检索的研究对于语料库的管理和学习使用具有相当重要的意义。面对具有海量信息的语料库,人们不可能在短时间内对这些数据进行分类并获得其中所需要的内容,这
为了建立对区域范围内各医疗机构业务联动,实现数据共享或业务协同,需要各医疗机构在个人身份上具有统一的身份机制,此项工作是区域卫生信息平台建设的基本任务。由于发卡机
随着Web2.0应用的快速发展,越来越多由用户生成的内容成为了互联网上的一个重要信息来源,出现了许多社会媒体网络站点,如Flickr、Facebook和YouTube等网站。这些网站中存在大量
当前,指纹识别仍然是一个研究热点。经过国内外同行的多年努力,指纹识别在越来越多的领域得到了广泛的应用,但是指纹识别中仍然存在许多问题,如高安全应用问题,多模板集成问