论文部分内容阅读
离群数据的检测与分析已经成为数据挖掘领域中一个重要的研究方向,其在金融欺诈检测和网络入侵、疾病预防和控制、灾难气象预报等许多方面都有着广泛的应用。随着研究的深入,低维空间中的离群点挖掘已经有了比较深入的研究,且取得了较多的成果;但由于高维空间中的数据分布具有稀疏性、噪音多、属性多、维度高等特性,传统的离群点检测方法已不再有效。因此,高维空间的离群点检测面临着许多的问题和挑战。
鉴于以上的问题,如何发掘出一种有效的高维空间离群点检测算法是研究的热点。目前,基于子空间解决高维离群点挖掘的问题已经引起人们的广泛关注,现有方法存在的主要问题是:难以选取合适的子空间,且选取计算量大;阈值等参数设置困难等。这些都影响了检测精度和检测效率。针对此,本文提出了基于高对比性子空间的离群点检测方法,论文的主要贡献如下:
(1)通过对现有的高维空间离群点挖掘算法的研究与分析,指出现有的挖掘算法存在的问题与挑战,并提出了相应的解决方法。
(2)针对难以选择合适子空间的问题,提出了一种高对比性子空间的选取方法。首先给出了高对比性子空间的定义,然后通过比较属性的边缘概率和条件概率之间的偏差,基于统计学检验计算偏差值从而得到子空间的对比值。最后,通过参数的限制选取最终的具有高对比值的子空间。实验结果表明,该算法可以有效地选择合适的子空间。
(3)提出了基于自适应的高对比性子空间离群点检测方法(AHiCS)。该算法包括相互独立的两个部分:高对比性子空间的选取和自适应离群点得分的计算。首先在高维空间里选择高对比性的子空间;然后在选取的子空间里,计算对象的邻居时,随着维度的增加,相应的增加对象之间的距离参数ε,运用核密度函数自适应地计算离群点得分。由于这两个部分相互独立,允许两个研究领域独立的进行,可以用模块的方式设计并结合各自的算法。这两个部分中任一个有所改进,都会导致整体离群点检测质量的提高,因此,离群点挖掘未来的研究可能会从中获益。理论和实验证明了AHiCS算法可以有效解决高维空间离群点挖掘的问题。