基于相邻关系的聚类和离群点检测算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yx065781080
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析和离群点检测都是数据挖掘邻域的主要研究方向之一。随着信息技术在科学研究、生产管理及商务应用中的日益普及,聚类分析和离群点检测在大量日常数据的挖掘分析中的重要地位也日渐显现。本文通过对空间数据间的相邻关系的深入研究,提出利用数据空间内局部密度不同的特性,进行聚类分析和离群点检测的算法,主要贡献如下: 1.提出了一种新颖的基于相邻关系的聚类算法——NBC算法。与传统的基于密度的聚类算法使用全局密度门限值不同,该算法引入邻基密度系数的概念,对每个数据对象周围的相对局部密度进行考察和度量。和以往的算法相比,NBC算法能够更有效地识别出同一数据集中任意形状、不同密度的簇,很好地解决了使以往算法失效的局部密度不均匀问题和多粒度问题。 2.提出了一种高效的基于相邻关系的离群点检测算法——NOF算法。该算法充分利用数据对象之间的相邻关系来度量数据对象的孤立程度。与基于距离的方法相比,它解决了局部离群点不能被准确识别的问题;与基于密度的方法相比,它更简练、直观和有效,并在一些LOF算法失效的数据集上依然能准确识别离群点。在大数据集和高维数据集的应用中,NOF算法在有比较高的效率和比较好的可扩展性。
其他文献
随着信息技术逐渐深入到人们的日常生活中,图像信息已成为人们获取的信息中的重要部分,并且如何利用、处理图像信息变得越来越重要。图像分割是图像处理领域中重要而基本的问题
CAD技术是自计算机产生以来出现的最杰出的工程技术成就之一,它从根本上改变了过去的手工绘图、发图、凭图纸组织整个生产过程的技术管理方式。特征造型技术被越来越多的应用
一方面,互联网的快速发展为我们提供了灵活便捷的通讯手段和丰富多彩的信息资源,以及便利的电子商务交易平台,另一方面,网络所面临的安全问题也越来越严重。恶意代码行为分析是检
目前各大医院重症监护室(Intensive Care Unit,ICU)的监护中存在急性低血压(Acute Hypotensive Episode,AHE)抢救及护理难问题。病人发生急性低血压则必须在短时间内予以治疗,否
随着全球市场的逐渐开放,全球运营与全球制造观念因运而生,供应链管理因为涉及很多企业之间的协作,呈现出复杂的网络结构,在这复杂的网络结构中,存在多种不确定性因素,其中最根本的
本文以玉米为主要研究对象,以计算机视觉理论为基础,采用计算机图像处理技术,研究了作物形态信息的计算机视觉检测技术。主要研究内容包括: 为了便于后续的图像处理,为数
随着新一代互联网的建设和发展,网络行为变得十分复杂,针对网络的异常攻击也变得更加严重,这些现状在很大程度上威胁着网络的管理和安全。网络测量是对网络性能进行分析和建模的
容忍入侵是第三代信息安全技术中的核心内容,与传统的安全技术不同,容忍入侵的目的是即使系统的部分组件受到攻击时,仍能维持整个系统关键信息和服务的完整性、机密性和可用
现有教室系统大都是虚拟教室系统、协作教学系统和多媒体教室系统,对文字书写教学没有实现很好的支持。针对这一现象,研发了一个结合国民义务教育的文字书写自动教学教室系统。
XML(eXtensibleMarkupLanguage)已成为Intemet上的数据存储、交换和表示的事实性标准。随着XML应用的普及,越来越多的数据以XML的形式存储和交换,对XML文档中的数据进行查询的