论文部分内容阅读
离群点检测是数据挖掘领域研究的重要问题之一,与其他数据挖掘研究的任务不同,离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领域,诸如电子商务犯罪、电信和信用卡欺诈的侦查、视频监视和网络入侵监测等领域中得到了广泛的应用。
目前虽然有许多离群点检测算法被提出,但其中大多数算法对离群点的定义是基于全局角度的。而在许多有着更复杂结构的现实世界的数据集上,人们往往对相对于数据点的邻域而言体现出离群特性的那些离群点更感兴趣,所以局部离群点有时比全局离群点更有意义。
本文主要对局部离群点检测问题进行了研究和讨论,所做的研究工作和成果主要体现在以下几个方面:
(1)对离群点检测的研究现状进行综述,并着重讨论了局部离群点检测的相关算法及其优缺点。
(2)提出了一种针对离散属性数据集的局部离群点检测算法ENBROD。由于离散属性值之间并没有类似于连续属性值之间那样固有的距离度量关系,不能简单的把用于连续属性数据集的检测算法应用到离散属性数据集中来。该算法通过定义了一种新的信息熵增量的概念-去一划分信息熵增量,把局部离群点检测的思想推广到离散属性的数据集中。通过大量实验说明了该算法的有效性,并通过和其他全局离群点检测算法的比较,说明了ENBROD算法在局部离群点检测方面具有较高的准确性。
(3)提出了一种多粒度局部离群点检测方法MLOF。该方法通过计算多个不同邻域粒度下数据对象的近似局部离群因子,对数据对象的离群程度进行描述。该算法通过使用基于单元格的划分技术以及选择适当的近似计算公式保证了该算法在适当的检测正确率前提下,运算时间与数据集对象个数n呈线性关系。通过实验比较和验证了其性能。而且,通过将运算结果有效的组织起来,算法能够辅助用户确定适合的邻域大小。