基于蚁群算法的离群点挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:haitian001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点挖掘随着数据挖掘的发展引起了广泛关注。通过对国内外离群点挖掘算法的研究情况分析可知,以往的离群点挖掘算法还存在诸多问题,例如用户定义的阈值往往直接影响着挖掘的结果;考查多变量之间的相似性来挖掘时序离群点的算法仍较少,或精确度较低。针对这些问题,本文主要研究了基于蚁群算法的离群点挖掘方法。首先,提出了一种在对蚁群构图进行切割的基础上挖掘离群点的算法。该算法在第一阶段对传统的蚁群算法进行改进,将不同属性数据之间的距离和分布情况纳入转移概率的计算之中,从而构建最优的图像。然后在一定的图像切割准则下对图像进行切割,最后通过计算各个簇,即切割图像后形成的各子图之间的差异以及同一簇中数据点之间的差异来找到top n离群点。其次,提出了一种基于改进的蚁群k-means聚类算法的多变量时序离群点挖掘算法。该算法把蚁群算法特有的信息素和转移概率引入对数据聚类的过程中,通过计算类内距离和类间距离找到符合聚类标准的最好聚类结果,然后通过查看各数据点在不同簇中的时刻点分布情况,以邻居相似性为标准计算各点的离群系数,从而实现时序离群点的挖掘。最后,在真实和合成数据集上对提出的两种算法进行了验证。实验结果表明,提出的算法在对离群点的检测精度上要明显优于其他同类算法,实现了预期的研究目标。
其他文献
随着信息技术的不断发展和计算机网络的日益普及,网络安全问题日趋严重。现有的安全技术与产品主要应用和部署在网络层,在一定范围内能保障网络系统的安全,但在实际应用中,更需要
随着计算机的普及使用,网络及其相关技术的迅猛发展以及由网络带来的各种益处和便利,使人们日常的工作、生活、学习发生了彻底的改变,网络事实上已经成为社会经济发展的重要基础
本课题是中国科学院网络信息中心超级计算中心自研项目“高性能科学计算环境SCE”的一个重要组成部分。在高性能计算环境中,通过对资源状态、网络连接状态、应用程序运行状态
管道支吊架设计在工厂设计中占有非常重要的地位。管架设计工作量占管道布置设计工作量超过30%,在一些特殊行业如核电站项目中达到50%以上。在包含大量复杂工艺管道的工厂设计中
离散曲面在现代工业设计、有限元分析、计算机图形学和计算机辅助设计领域中发挥着重要的作用。通过三维扫描设备重建得到的离散曲面,其质量往往不能满足后续曲面编辑、数值分
作为20世纪新技术革命的重要标志之一,互联网技术发展给整个人类的社会与生活带来了意义深远及影响广泛的变革。随着互联网规模的迅猛增长与应用范围的拓宽,传统IPv4协议已不
随着卫星、CT成像等传感器的广泛应用,空间数据的数量和复杂性都在飞快地增长,但空间数据的处理技术却相对落后,因此,空间数据挖掘成为了数据挖掘的一个新的研究领域。空间离群点
近年来各种对等通信业务如即时通信、文件共享和多媒体分发等应用广泛流行,已超过Web应用成为占用互联网带宽最多的网络应用。然而,因IP地址短缺、网络接入设备增多、互联互通
高速公路交通事件的快速检测,对及时有效地进行交通事故救援和处理、有效减少由于交通事故产生的交通延误及避免二次事故的发生具有重要意义,是智能交通系统中的重要组成部分
InfiniBand是一种高带宽、低延迟的支持RDMA传输方式的高速互连技术,由于其传输方式的特殊性,现在主要在高性能服务器的设计中使用。随着Java集群被广泛部署于企业集群环境中,作