论文部分内容阅读
现今的大多数数据挖掘算法更偏重于发现大部分数据的模式匹配,却不太深入研究那些偏离模式的特殊数据对象。然而恰恰就是这些罕见事件、特殊对象、异常信息的价值有时候往往会比正常的数据对象更具有研究价值,更受人们青睐。例如异常银行卡取钱当中,人们并不关心正常额度的取款信息,而更加看重那种大额等异常取款信息;在流量信息分析中,人们可以通过检测异常流量信息来推断是否足中病毒;在病例图像分析中,人们可以通过检测异常像素点来推测是否为癌症患者等等。从上面的描述可以看出,离群点应该是具有研究价值、特殊意义的数据对象,而不是由于数据冗余、数据缺失等原因产生的噪声。Hawkins认为离群点是另一种机制产生的不同信号;它偏离了正常的观测信号。
为了发现这类有研究意义的离群点,人们先后提出了基于统计的离群点检测方法、基于距离的离群点检测方法、基于密度的离群点检测方法、基于深度的离群点检测方法、基于偏差的离群点检测方法、基于聚类的离群点检测方法。其中基于密度的离群点检测方法尤为出色,它从局部出发,从对象的邻居来看待其孤立情况。算法可以检测各种形状的簇,同时也适合于全局情况。但该算法计算量复杂,这个致命缺点使得算法不适合比较大的数据集。为了将局部离群点检测方法用于现实牛活中,对此,人们又提出了用邻域半径来衡量局部可达密度,用以减少计算量。然而,这种思想只是粗糙的度量了邻域的密度,精确度不够。
针对以上一些问题,本文提出了基于邻域要素的局部密度离群点检测算法。基于以前方法存在的问题,本文进行了如下研究:1、针对局部离群点检测不适于大数据集问题,提出了利用基于微粒群和变异模糊c均值算法相结合的聚类算法撇除一大部分非离群点,从而减少可疑离群点规模;并且将离群因子中最大的前m个作为离群点,减少了参数的输入;2、针对局部离群点检测计算量复杂问题,本文提出了利用邻域要素:邻域半径的大小、规模、紧凑度共同来衡量邻域密度的大小,从而替代局部可达密度;3、聚类不是专门用来检测离群点,因而精确性又不够;为了解决这一问题,本文提出了,将在聚类过程中产生的可疑离群点集和利用最终簇中心产生的另一批可疑离群点进行取交,从而获得最终的可疑离群点集。实验证明,与传统方法相比,改进后的方法虽然在时间效率上处于中等水平,但在准确性、鲁棒性测试上表现更佳,而且更适合于大数据集上的离群点检测。