数据流挖掘关键技术研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:q2316456q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测和聚类问题作为数据挖掘领域的经典课题,一直受到学术界的广泛关注。然而,随着传感器网络的普及以及“大数据”时代的到来,越来越多的数据由传统的静态数据向动态数据流的形式进行转变,这给基于静态数据的离群点检测方法和聚类方法带来了新的挑战。与静态数据相比,动态数据流具有海量性、实时性和动态变化性的特点,在特定的场景下,这些数据还可能具有高维性。这些特性大大增加了离群点检测和数据分类聚类的难度。本文从数据流的基本特性(海量行、实时性、动态变化性、高维性)入手,对数据流挖掘问题展开研究,主要工作和研究成果如下:1.为了解决传统基于滑动窗口的离群点检测算法(Sliding Window-based Data Stream Outlier Detection,SWDSOD)在某些场景(如正弦波形信号中的离群点)中检测不准确的问题,提出了一种基于衰减模型的数据流离群点检测方法(Fading Model-based Data Stream Outlier Detection,FMDSOD),该算法不仅考虑了根据时间间距计算任意两个点之间的权重影响因子,而且还通过定义巧妙的数据结构降低了原算法的计算量。通过实验分析论证,FMDSOD算法无论从准确率还是执行效率都比SWDSOD要好。2.为了解决数据流聚类算法E-Stream算法在进行高维数据流聚类的时候性能急剧下降的问题,本文提出了一种计算簇的特征维的方法,通过分析样本数据流形成的每个簇的特征维,在判断新到达的数据点属于那个簇的时候,只有与该簇相关的特征维参与计算,忽略掉冗余维的计算,有效减少了算法的计算量,在聚类纯度与原算法纯度不相上下的情况下有效的提升了算法的执行效率。该方法的引入,很好的弥补了E-Stream算法在高维数据流聚类时的不足。3.采用上述提出的两种方法,设计并实现了分布式数据流处理系统,包括数据流离群点检测和数据流聚类方案。FMDSOD算法完成系统中离群点检测模块,基于特征维的数据流聚类算法实现系统处理高维数据流时的数据聚类任务。通过系统部署运行测试,两种算法最终都达到了预期的效果,具有较高的实用价值。
其他文献
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提
电子政务是信息化最重要的领域之一,而信息安全则是建设电子政务的基础。目前,我国电子政务内网的重要电子文档保护存在两大问题:一是重要电子文档一旦到达最终用户手中就失
CDN(Content Distribution Network)和P2P技术是目前Interent上实现内容传递的两种主流技术。内容分发网络的核心是将互联网内容提供商和电子商务应用站点的信息迅速有效地发
视频点播简称VOD,是Video On Demand的英文缩写,它是指用户可以在任何时刻从服务器(群)中获取所需的任意长度的音、视频数据到客户端播放的应用,是一种新颖的交互式多媒体服务。
学位
混沌是非线性动力学系统所特有的一种运动形式,它是产生于确定性系统,敏感依赖于初始条件的往复性稳态非周期运动,类似于随机振动而具有长期不可预测性,特别适合于保密通信领
数据仓库技术是数据库技术的一个研究方向,能够有效的管理传统数据库产生的历史数据,并向各种决策支持应用如联机分析处理、数据挖掘等提供有力的数据支持,适应了企业用户对数据
无线传感器网络(Wireless Sensor Network,简称WSN)是一种由大量微型传感器节点组成的面向任务的无线自组织网络。其中,路由问题作为WSN中的关键技术之一,已吸引了各学术界和
数字图象加密源于早期的经典加密理论,其目的是将一幅给定的图象按一定的变换规则在空域或频域将其变换为一幅杂乱无章的图象,从而隐藏其图象本身的真实信息。数字水印技术作
串行ATA(Serial Advanced Technology Attachment,SATA)是一种完全不同于并行ATA的新型硬盘接口标准。具有支持热插拔,传输速度快,执行效率高等特点。同时,SATA总线使用嵌入