论文部分内容阅读
聚类在模式识别中被称为无监督分类,在统计学中被称为非参数估计。其目的是在无先验知识的情况下,根据数据对象之间的相似性来完成数据分类,从而加深对数据的理解,或者作为一种数据压缩的工具。聚类分析被广泛使用在众多领域,比如计算机视觉、生物信息学、图像处理、数据库知识发现等。虽然数以千计的聚类算法已经被提出,但挑战依然存在:类形状不一,处理高维数据,怎样决定聚类结果中类的数量,结果中一个正确的类如何定义,聚类结果难以评价等等。通过指定数据所在的聚集区域的基于密度的聚类算法在处理形状复杂的类上表现很好。近期,Alex and Anlessandro提出了一种新的密度聚类算法CFSFDP (Clustering by Fast Search and Find of Density Peaks),该算法和其他密度聚类算法一样,能处理复杂形状的聚类,也不需要提前指定数据中类的数量。同时,CFSFDP需要较少的用户指定参数。与一些迭代聚类算法相比,该算法运行时间低。另外,该算法的研究小组利用Olivetti人脸数据库中的图片聚类证明了CFSFDP处理高维数据的能力。然而,通过分析,我们发现看似如此优雅的算法CFSFDP在面临一些情况时效果不好。首先,相对稀疏的类中心容易被CFSFDP的决策图所忽略。另外,该算法聚类成功有一个很严格的条件,那就是数据集里每个类中有且仅有一个密度极值点,超过一个则算法结果中类会被分裂。受层次聚类算法的启发,本文提出了一个新的基于密度的层次聚类算法,即基于CFSFDP.具体地,我们在CFSFDP类中心选取时使用积极策略得到初始聚类结果,然后利用一个改进的类间距离计算模型计算不同类间相似度,根据相关数据逐步融合子类得到最终的聚类结果。该算法可以发现稀疏的类,且打破了CFSFDP对聚类中心的严格需求,能更好地应用于无密度极值点的数据。我们通过实验证明了算法在没有唯一密度极值点的数据集上的仍然有效,并且在实验中,我们的算法获得了不输于数据来源处所使用的算法的聚类效果。另外,在本算法中,参数选择更加容易。