基于密度的层次聚类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:netcapo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类在模式识别中被称为无监督分类,在统计学中被称为非参数估计。其目的是在无先验知识的情况下,根据数据对象之间的相似性来完成数据分类,从而加深对数据的理解,或者作为一种数据压缩的工具。聚类分析被广泛使用在众多领域,比如计算机视觉、生物信息学、图像处理、数据库知识发现等。虽然数以千计的聚类算法已经被提出,但挑战依然存在:类形状不一,处理高维数据,怎样决定聚类结果中类的数量,结果中一个正确的类如何定义,聚类结果难以评价等等。通过指定数据所在的聚集区域的基于密度的聚类算法在处理形状复杂的类上表现很好。近期,Alex and Anlessandro提出了一种新的密度聚类算法CFSFDP (Clustering by Fast Search and Find of Density Peaks),该算法和其他密度聚类算法一样,能处理复杂形状的聚类,也不需要提前指定数据中类的数量。同时,CFSFDP需要较少的用户指定参数。与一些迭代聚类算法相比,该算法运行时间低。另外,该算法的研究小组利用Olivetti人脸数据库中的图片聚类证明了CFSFDP处理高维数据的能力。然而,通过分析,我们发现看似如此优雅的算法CFSFDP在面临一些情况时效果不好。首先,相对稀疏的类中心容易被CFSFDP的决策图所忽略。另外,该算法聚类成功有一个很严格的条件,那就是数据集里每个类中有且仅有一个密度极值点,超过一个则算法结果中类会被分裂。受层次聚类算法的启发,本文提出了一个新的基于密度的层次聚类算法,即基于CFSFDP.具体地,我们在CFSFDP类中心选取时使用积极策略得到初始聚类结果,然后利用一个改进的类间距离计算模型计算不同类间相似度,根据相关数据逐步融合子类得到最终的聚类结果。该算法可以发现稀疏的类,且打破了CFSFDP对聚类中心的严格需求,能更好地应用于无密度极值点的数据。我们通过实验证明了算法在没有唯一密度极值点的数据集上的仍然有效,并且在实验中,我们的算法获得了不输于数据来源处所使用的算法的聚类效果。另外,在本算法中,参数选择更加容易。
其他文献
随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重
果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)是一种对果蝇在觅食过程中的行为进行仿真模拟从而总结得出的一种优化算法。FOA算法根据果蝇所在位置计算其相应的味道
语义网这个概念于2000年首次由Berners-Lee提出,以往Web技术中计算机主要扮演展现信息的角色,几乎不参与信息处理,忽略计算机信息处理的作用,一方面使得Web中庞大数据无法得
交互式遗传算法是一种通过人的主观评价得到个体适应度值的遗传算法。它将人的智能评价与进化计算有机的结合起来,突破了建立被优化系统的显式性能指标的限制,大大扩充了进化
随着计算机网络和通信技术的发展,数据流(Data Stream)的相关研究受到广泛关注,在诸如金融分析、传感器网络、交通信息系统、移动对象跟踪、网络数据监控等领域已有数据流管理系
在移动通信和通信产品普及的时代,通信原理已成为各高校电子信息工程、通信工程等专业的必修课。它的辅助教学实验课程具有验证理论知识,使理论知识转化成实际电路和培养学生
离群点挖掘作为数据挖掘的重要组成部分,能够从大量复杂的数据中找到小部分与其他数据相比最不一致、显著异常的数据点,这些异常点往往包含着非常重要的信息。本文通过研究现
关联规则挖掘是数据挖掘的一个重要研究分支,以从大型数据库中提取知识的主要手段,有效地来解决“数据丰富、知识贫乏”的现状,因此具有较大的理论研究与应用价值。关联规则
噪声去除是图像恢复的主要内容之一,其主要任务是消除观测到图像中的噪声成分,从而得到理想的清晰图像。加性噪声的变分模型研究已经取得很大进展,而对于乘性噪声图像恢复问
生物信息学是计算技术在管理和分析生物信息数据上的应用。在生物信息学中,序列比对是一种计算排列DNA、RNA和蛋白质序列的方法,此方法用来划分序列间可能与功能、结构或进化关