基于高对比性子空间的离群点挖掘算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:tc_b074220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群数据的检测与分析已经成为数据挖掘领域中一个重要的研究方向,其在金融欺诈检测和网络入侵、疾病预防和控制、灾难气象预报等许多方面都有着广泛的应用。随着研究的深入,低维空间中的离群点挖掘已经有了比较深入的研究,且取得了较多的成果;但由于高维空间中的数据分布具有稀疏性、噪音多、属性多、维度高等特性,传统的离群点检测方法已不再有效。因此,高维空间的离群点检测面临着许多的问题和挑战。   鉴于以上的问题,如何发掘出一种有效的高维空间离群点检测算法是研究的热点。目前,基于子空间解决高维离群点挖掘的问题已经引起人们的广泛关注,现有方法存在的主要问题是:难以选取合适的子空间,且选取计算量大;阈值等参数设置困难等。这些都影响了检测精度和检测效率。针对此,本文提出了基于高对比性子空间的离群点检测方法,论文的主要贡献如下:   (1)通过对现有的高维空间离群点挖掘算法的研究与分析,指出现有的挖掘算法存在的问题与挑战,并提出了相应的解决方法。   (2)针对难以选择合适子空间的问题,提出了一种高对比性子空间的选取方法。首先给出了高对比性子空间的定义,然后通过比较属性的边缘概率和条件概率之间的偏差,基于统计学检验计算偏差值从而得到子空间的对比值。最后,通过参数的限制选取最终的具有高对比值的子空间。实验结果表明,该算法可以有效地选择合适的子空间。   (3)提出了基于自适应的高对比性子空间离群点检测方法(AHiCS)。该算法包括相互独立的两个部分:高对比性子空间的选取和自适应离群点得分的计算。首先在高维空间里选择高对比性的子空间;然后在选取的子空间里,计算对象的邻居时,随着维度的增加,相应的增加对象之间的距离参数ε,运用核密度函数自适应地计算离群点得分。由于这两个部分相互独立,允许两个研究领域独立的进行,可以用模块的方式设计并结合各自的算法。这两个部分中任一个有所改进,都会导致整体离群点检测质量的提高,因此,离群点挖掘未来的研究可能会从中获益。理论和实验证明了AHiCS算法可以有效解决高维空间离群点挖掘的问题。
其他文献
随着电子商务网站中商品数量和种类的增多,消费者需要花费更多的时间进行商品的筛选,这种信息过载的现象困扰着人们对有效信息的选择。为了解决以上难题,推荐技术进入了人们的生
颗粒粒度大小对于许多工业产品的质量和性能都起着非常重要的影响,基于嵌入式系统图像处理的颗粒粒度检测技术,因其具有便携性、安全、快速、非接触测量等诸多优势,成为目前颗粒
人脸识别技术是模式识别和人工智能领域的研究热点之一。基于二维图像的人脸识别技术经过半个多世纪的发展,已经取得了一定的研究成果。受限于所采用的数据形式,二维人脸识别方
近年来,随着信息技术的迅猛发展和多媒体的广泛应用,多媒体技术已经成为人们研究的热点。而跨越视频底层特征与人类思维中的高层语义之间的语义鸿沟成为横亘在众多学者面前的亟
随着信息技术的不断发展,计算机网络在过去的几十年间经历了一个蓬勃发展的时期。网络的广泛应用已渗透到日常生活的各个领域,然而由于网络流量和网络,资源分布的不均衡性,伴
复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关
目前,与人类识别音乐的能力相比,计算机的识别能力非常有限。数字音乐和互联网技术的快速发展使我们可以获得大量的音乐作品,同时需要更加有效的音乐检索系统。乐器识别在复杂的
云计算预留是指在云计算环境下,利用云计算中大量的丰富资源,为满足用户对云服务的需求,在实际使用服务之前进行必要的接纳测试和预留,使用户在使用服务的过程中获得做够的服务,使
从海量的蛋白质序列数据信息中分析蛋白质的结构和生物学功能是后基因组时代的一个重大挑战。蛋白质折叠模式是描述蛋白质空间拓扑结构的重要概念。开发基于序列的蛋白质折叠
随着网络规模的不断扩大,用户对Internet服务质量要求的不断提高,传统的单播传输方式已经难以满足日益新起的Internet应用对有限网络资源的需要,组播服务作为一种节省网络资