基于k近邻树的离群检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qyc88107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群检测是数据挖掘的重要分支,离群数据对象隐藏着非常重要的信息和知识,发掘并运用这些财富推动着离群检测的研究。在理论上,研究者们对离群检测的研究取得了巨大的成功。在实际应用中,离群点检测也应用非常广泛,如信用卡欺诈、传感器数据检测、气象分析以及图像处理等等。离群数据可以分为点离群点和簇离群点。由于现实生活中数据集的复杂性以及多样性,有些离群点的相似性非常大,数量小,可认为是由特殊机制产生的离群簇。不能检测出这些离群小簇意味着丢失极其重要的隐秘信息。因此,检测簇离群点极其重要。传统的研究都集中于检测点离群点而忽视簇离群点,有些算法能检测出离群簇,但是效果不够理想。除此之外,传统的离群检测算法对参数、数据集密度、数据集分布敏感。针对这些问题,本文提出了基于k近邻树的离群检测算法。具体的研究成果包括如下:①对离群检测技术的背景以及意义进行了介绍,考察调研了离群检测技术的国内外现状。②对离群点产生的原因、分类及检测技术应用进行了简单介绍,系统全面地表述了当前的离群点检测算法,重点分析比较了各类离群点检测算法的优点以及局限性,最后简单阐述了离群点检测技术的当前热点和趋势。③提出基于k近邻的不相似性度量方法,该度量方法首次提出数据对象间的不相似性具有方向性,并且结合密度因素使得最终算法更适应数据集密度变化。④针对现有离群检测算法对簇离群点的检测欠佳问题提出了基于k近邻树的离群检测算法(Outlier Detection based on K-nearest Neighborhood MST.,KNMOD),算法通过采用Fibonacci堆等高级数据结构,大大提高了算法的检测效率,并且利用树的特性使得该算法能够克服数据集流形问题。通过人造具有明显局部离群点和离群簇的数据集,将算法和其他传统算法(LOF、KNN以及INFLO)进行对比实验,验证算法的有关特性;同时,将算法和其他传统算法(LOF、KNN、INFLO、COF)运行在UCI的五组真实数据集上,提出类ROC评估方法,比较他们的有效性,最终验证了算法的有效性以及合理性。
其他文献
随着Web应用的蓬勃发展,现实世界中存在大量的对象,它们相互之间存在各种各样的交互关系,形成一个庞大的、相互联系的复杂网络,我们称这个网络为信息网络。现实中,信息网络无
随着计算机技术和互联网的迅猛发展,“三网融合”的发展趋势日益明朗。人们对网络传输数据需求的越来越多样化,使得分组交换网络的负载急剧增加,互联网正面临着十分严重的技
近几十年来,多媒体技术得到了飞速的发展,人们对交互式的音视频服务的需求也日益提高,这也推动了视频对象分割技术的进步。到目前为止,已经有近千种的分割算法,并且新的理论
随着时延容忍网络在现实生活中不断得到应用,其主流路由策略设计不足导致的性能瓶颈日益突出。理想的路由策略应该在能耗较低的前提下使时延容忍网络的传输性能达到最优,然而
动物机器人在运动的灵活性、能源供给、环境适应性等方面相比传统机器人具有很大的优势,在环境侦查和灾难搜救等方面的应用前景十分广阔,然而现实中将动物机器人用于未知环境探
随着电子纸显示技术的推广与应用,我们对电子纸已不再陌生,电子纸不仅是一种纸的替代品,而且是具有很大发展潜力的未来显示设备,电子纸显示技术分为很多类型,目前市面上最具代表性
随着科技日新月异的进步,各种各样的数据充斥着生产生活的各个领域,如何有效地获取数据中的精华并运用到各行各业中去,成为科研人员关注的焦点。基于这一实际需求,数据挖掘技术应
随着计算机技术的不断发展,社会环境的日益复杂,日常生活中对于安全的需求越来越高。人脸识别技术作为日益成熟的生物特征识别技术,通过比较人脸的生物特征信息来对身份加以
随着互联网、数码相机(特别是具有拍照功能的智能手机)和图像编辑工具的快速发展和大规模普及,网络上的图片数量成爆炸式增长。如何在互联网上海量图像中找到用户所需要的图