基于网格模型的孤立点检测算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:shi12345600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。而孤立点分析是数据挖掘中的重要研究方面之一,其作用就是发现数据中的“小模式”,即数据集中显著不同于其它数据的对象。经过近20年的发展,数据挖掘技术在理论研究上日趋成熟,正不断的扩展其应用范围,当前数据挖掘已用于电信、金融、商业、气象预报、DNA、股票市场、入侵检测和客户分类等许多领域。因此,本文首先研究了基于单元的孤立点发现算法,指出了其存在的缺点:其次,提出了一种基于网格模型的孤立点检测算法。本文的主要工作可以概括为以下五个方面:(1)从孤立点挖掘的现实意义、算法、应用领域、挖掘工具、算法的评价等各个方面对孤立点挖掘问题进行了综述。(2)针对已有检测方法的不足,本文提出了一个新的孤立点检测方法,通过对数据集的网格划分与数据模型的转换来判别异常,从而有效提高算法的效率。(3)设计了基于网格的检测算法,给出了数据空间的网格划分,定义了网格内孤立点存在性阈值,提出了基于网格的孤立点检测算法,在保证算法的有效性的前提下,降低了算法的时间复杂度。(4)实现了一个异常检测实验平台ED(Elnino Detector),其中集成了所提出的算法,为异常检测提供了一个分析工具。所提供的数据接口能够从标准Elnino数据集中获取数据,并进行相应的数据浏览和分析。(5)结合气候数据收集的特点,探讨了使用异常检测来检测气候的必要性和方法。本文的研究目的是构建一个使用本文的算法从真实数据中检测异常数据实验平台,主要包括几个方面:1.给出数据空间的网格划分;2.定义网格内孤立点存在性阈值;3.提出了基于网格的孤立点检测算法:4.基于真实数据的算法验证。本文实现了一个基于Eclipse RCP的试验平台,通过对Elnino数据集的检测结果,对本文提出的算法进行了验证。试验结果表明,该算法能够得到比较好的孤立点分析结果。最后,对本文的工作进行了总结和对研究前景的展望。
其他文献
随着计算机技术尤其是网络技术的发展,作为互联网的重要组成部分——学校的教育网络也在不断地发展。校园网建设的深入开展无疑对加大信息资源共享度,提高工作效率起到积极重
随着数据挖掘技术的发展,人们对时态信息的关注日益提高。时态数据库中既反映被处理事件的历史信息又体现系统中元事件时态信息的双时态数据库日益受到人们的重视。随着双时
边缘是图像中重要的特征之一,边缘检测是计算机视觉、模式识别等的基础。然而,边缘检测又是图像处理中一个困难的问题,因为实际景物图像中的边缘往往是各种类型的边缘以及它
随着互联网技术的发展与应用的深化,各种数据呈爆炸式增长,数据密集型应用的负载特性与传统应用具有很大区别,传统处理器利用时空局部性提升性能的方法将不再适用。因此,针对
随着近年来互联网技术的快速兴起,在线社交网络作为一种现实社交在互联网中的投射物,越来越具有相当的研究价值。在现实社会关系中,以自然人为节点,人与人之间的各种直接联系为边
近年来由于计算机技术在工程设计领域的广泛应用,使CAD(计算机辅助设计)技术迅速发展起来。协同CAD系统是CSCW技术的一个典型应用。它支持不同地理位置的多个设计者通过分工
由于空间网络相较于传统地面网络具有长传播时延、高误码率、带宽不对称,连接易中断的特点,现有的传输机制难以满足其高效传输的要求。本文针对空间网络的特点,通过将链路状
近年来,随着信息技术的蓬勃发展,社交网络、电子商务,网络游戏等已经成为一种重要的市场行为,随之而来的是网域空间虚拟资产数据的巨大增长。虚拟资产保全系统旨在对这些海量
随着计算机及其相关技术的发展,通信能力和计算能力的价格正变得越来越便宜,各种新形念的传感器所占用的体积也越来越小。由于对生产效率、生活质量的不懈追求,人们开始希望能随
近年来,无线通信和电子技术的不断进步,促进了微型无线通信传感器节点的长足发展。由这些低功耗、多功能的节点所构成的无线传感器网络具有十分广阔的应用前景,目前已成为计算机