基于邻域要素的局部密度离群点检测

来源 :南开大学 | 被引量 : 0次 | 上传用户:nhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今的大多数数据挖掘算法更偏重于发现大部分数据的模式匹配,却不太深入研究那些偏离模式的特殊数据对象。然而恰恰就是这些罕见事件、特殊对象、异常信息的价值有时候往往会比正常的数据对象更具有研究价值,更受人们青睐。例如异常银行卡取钱当中,人们并不关心正常额度的取款信息,而更加看重那种大额等异常取款信息;在流量信息分析中,人们可以通过检测异常流量信息来推断是否足中病毒;在病例图像分析中,人们可以通过检测异常像素点来推测是否为癌症患者等等。从上面的描述可以看出,离群点应该是具有研究价值、特殊意义的数据对象,而不是由于数据冗余、数据缺失等原因产生的噪声。Hawkins认为离群点是另一种机制产生的不同信号;它偏离了正常的观测信号。   为了发现这类有研究意义的离群点,人们先后提出了基于统计的离群点检测方法、基于距离的离群点检测方法、基于密度的离群点检测方法、基于深度的离群点检测方法、基于偏差的离群点检测方法、基于聚类的离群点检测方法。其中基于密度的离群点检测方法尤为出色,它从局部出发,从对象的邻居来看待其孤立情况。算法可以检测各种形状的簇,同时也适合于全局情况。但该算法计算量复杂,这个致命缺点使得算法不适合比较大的数据集。为了将局部离群点检测方法用于现实牛活中,对此,人们又提出了用邻域半径来衡量局部可达密度,用以减少计算量。然而,这种思想只是粗糙的度量了邻域的密度,精确度不够。   针对以上一些问题,本文提出了基于邻域要素的局部密度离群点检测算法。基于以前方法存在的问题,本文进行了如下研究:1、针对局部离群点检测不适于大数据集问题,提出了利用基于微粒群和变异模糊c均值算法相结合的聚类算法撇除一大部分非离群点,从而减少可疑离群点规模;并且将离群因子中最大的前m个作为离群点,减少了参数的输入;2、针对局部离群点检测计算量复杂问题,本文提出了利用邻域要素:邻域半径的大小、规模、紧凑度共同来衡量邻域密度的大小,从而替代局部可达密度;3、聚类不是专门用来检测离群点,因而精确性又不够;为了解决这一问题,本文提出了,将在聚类过程中产生的可疑离群点集和利用最终簇中心产生的另一批可疑离群点进行取交,从而获得最终的可疑离群点集。实验证明,与传统方法相比,改进后的方法虽然在时间效率上处于中等水平,但在准确性、鲁棒性测试上表现更佳,而且更适合于大数据集上的离群点检测。
其他文献
随着计算机通信网络、流媒体和压缩等技术的发展和应用,数字内容服务己成为软件产业乃至整个信息产业中发展最快、最具市场前景的领域。但是数字内容很容易就被复制、篡改和
稀有类分类问题是数据挖掘与机器学习的一项难点任务,在典型的二元分类问题中,稀有类(或正类)的样本数远小于多数类(或负类)的样本数。传统的分类方法倾向于最小化训练误差,
图像的两大基本特征是颜色和形状,研究表明大脑对颜色和形状的处理是分开进行的,为了最后识别图像大脑必须把颜色和形状最终进行特征绑定。脑认知一直以来是人们的研究热点,
随着数字化技术、网络信息技术以及多媒体通信技术的不断发展,视频图像的传播越来越广泛,传输的信息量也逐渐增大,因此对视频文件进行压缩编码成为视频领域的研究热点。H.264
伴随着互联网技术的飞速发展,数字产品的传播也得到了极大的方便,不过随之而来的副作用也引起了人们的广泛关注和重视。其中软件作为一种典型的数字产品,其开发需要耗费大量
Web从产生到现在已经发展了超过20年,它最初产生时的主要目的是方便全世界的科学家共享信息。但是随着网络的发展,如今web的功能已经发生了很大的改变,网站内容日益丰富,Web
入侵检测系统作为网络安全防护的重要手段之一,目前已得到越来越多的重视。将数据挖掘中的算法应用到入侵检测技术中是把入侵检测系统智能化的重要一步。由于入侵检测系统在
行人检测是目标检测的一个分支,它旨在将行人从连续的视频帧或单帧图像中准确的定位并分割出来,是计算机视觉领域最为活跃也最富挑战性的课题之一。本文对行人检测算法的研究,旨
在信息化程度高度发达的今天,随着高技术武器的不断发展和致伤武器的多样化及其在战争中的广泛应用,不但导致短时间内出现大量的伤病员,而且使得伤情变得复杂。这对长期处于和平
在云存储环境下,如何高效、动态地完成多副本数据的完整性审计是一项极具挑战性的问题。数据所有者为了节约存储成本,通过远程服务将数据外包存储在云服务端。由于云服务提供