离群检测无参化与复杂流形聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hjx1000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在大量的数据中提取出人们可理解的、存在潜价值的知识、模式、规则或规律的过程。离群检测与聚类分析是数据挖掘领域中研究非常热门的两个研究课题。这两个课题相关的概念、技术以及应用都已发展得比较成熟。但随着现实生活、网络等产生的数据量、数据维度、数据种类等剧增,导致数据复杂度的不断提高,使得离群检测分析和聚类分析存在的一些未能解决的难题浮出水面,从而对离群检测和聚类分析提出了新的挑战。本课题希望通过对离群检测和聚类分析的基础理论和算法的研究,从而达到对离群检测和聚类分析进行丰富发展的目的,同时解决离群检测和聚类分析已有研究和应用中存在的一些难题。本论文将自然邻居的概念引入到离群点检测中,利用自然邻居的无参特性提出了无需参数k值的离群点检测算法,解决了现有离群点检测算法需要参数k并对k值敏感的问题。离群点检测分析是数据挖掘中排除潜在威胁或发现新机制的非常重要的手段。在实际应用中,离群点检测分析已被应用到多个领域,例如欺诈检测等。因此,论文对离群点检测分析现状进行研究分析,基于距离和基于密度的离群点检测算法是最常用的离群检测算法,然而和大多数离群点检测算法一样,都需要设置邻域参数k的值。基于距离的离群点检测算法需要参数k值来计算k距离,基于密度的离群点检测算法需要参数k值来计算每个数据对象的密度。如若k值设置得不合适就有可能导致离群点检测失败。实验结果不仅证明了被提出算法的有效性,同时也说明了自然邻居得到的自然值,不但适用于本文提出的算法,还适用于LOF和INS算法。本文提出了无需参数Top-n的离群簇检测算法解决了离群簇检测难和所需参数多的问题。离群检测包括离群点检测和离群簇检测。离群簇检测出来的结果包括了数据集中离群点之间的簇结构等关联信息,更方便研究者对其做更进一步的研究。所以,相对离群点检测而言,离群簇检测更具有实用性,更有发展前景。现有离群簇检测算法基本都是基于聚类的离群检测算法,而且没有专门服务于离群簇检测的聚类算法。且现有基于聚类的离群簇检测算法存在着参数多难以设置等问题。首先基于互为邻域图提出了专门用于离群簇检测且仅需一个参数的粗糙聚类算法,从而解决了用于离群簇检测的聚类算法参数多的问题。然后基于上述提出的粗糙聚类算法得到的粗糙聚类结果计算每个簇的相对簇离群度,并构造出离群簇决策图;最后通过离群簇决策图检测出数据集中的离群簇,所以离群簇检测时无需参数Top-n。通过在人工数据集和真实数据集上的实验验证了提出算法的有效性,同时证明了此算法求得的数据离群率非常接近数据集的真实离群率。本论文提出了基于准核心点的复杂流形聚类算法解决了复杂流形聚类难的问题,同时算法引入了新的密度衡量标准,解决了稀疏密度簇难发现的问题,并且该算法对所需参数具有鲁棒性。聚类分析是数据挖掘中发现数据集中数据分布规律,对数据进行归纳分析的重要手段。论文对聚类分析的现状进行了概括分析,并指出了现有聚类算法对参数敏感、对具有复杂流形数据聚类难等问题。同时,现有基于密度或基于中心等聚类算法对数据密度的衡量标准存在一个问题,那就是簇与簇之间密度较大,有可能导致稀疏类被当作离群点处理。首先,论文将离群检测中的密度衡量方法引入到聚类分析中,并提出了准聚类中心这一新的概念:准聚类中心密度大于其所有的k邻居或逆k邻居的密度;其次,通过从准聚类中心不断向稀疏区域扩散,对数据集进行初始聚类;最后,论文定义了簇与簇之间的相似性,通过合并相似性较大的簇得到最终聚类结果。论文通过对比实验验证了提出算法的有效性,同时证明了被提出算法对参数具有鲁棒性,且从理论上讲适用于任何流形分布的数据集。
其他文献
信息技术的发展使人类社会大步迈入了网络时代,使得人们开始广泛关注网络理论研究。复杂网络理论研究各种看上去互不相同的复杂网络之间的共性和处理它们的普适方法,探索复杂
可信计算是当前研究的热点问题,构建安全的可信计算系统涉及多方面的内容,存储安全是其中重要组成部分,而数据的完整性和机密性保护是存储安全的两个最基本要求。  目前在
随着移动智能设备的普及和功能的增强,多样化手持与车载终端的广泛应用,无线通信需求的进一步增加,无线网络逐渐延伸到拓扑更加多变、信道更恶劣的应用环境中,这些场景具有节点分
随着因特网技术在人类社会活动中的应用越来越广泛,因特网中信息的规模越来越大。庞大的信息数量使得大部分人难以自己检索需要的信息,而只能通过搜索引擎帮助检索。但现有的搜
近年来,时滞神经网络已经广泛应用到模式识别,信号处理,联想记忆,全局优化等领域。众所周知,神经网络的设计必须很大程度的依赖于系统本身的动力学属性。因此,时滞神经网络动
在软件系统建模领域,面向对象的建模方法已经占据了主流地位。然而,面向对象建模方法,都存在如下几个问题:(1)已有的面向对象建模方法常常把目光集中在建模元素上,而不关注与
近年来,现代科学技术迅猛发展,传感器依赖的科技,如嵌入式技术、无线网络通信技术、微机电技术等日新月异,能够民用的无线传感器网络应用也逐渐出现在人们视野。目前,我国对
随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在
带容量限制的基于质心的Voronoi图(CCCVT, Capacity Constrained Centroidal Voronoi Tessellation)在普通Voronoi图的基础上加入质心限制和容量限制,可生成符合容量约束的CV
随着科技信息的发展,数字图书馆已经成为图书馆建设的主流方向。数字图书馆中存储的海量信息为数据挖掘提供广泛的应用空间和更高的技术要求。如何高效地利用数据挖掘技术挖