论文部分内容阅读
聚类分析是无监督模式分类的一个重要组成部分,也成为现代数据分析中越来越重要的一个工具。初始条件、相似性准则和聚类准则的不同产生的聚类算法也不尽相同。因此,聚类算法是一个内容庞杂的大家族。至今,众研究学者也提出了多种多样的聚类算法。许多经典的聚类算法,如平均链接、K-means、K-medoids、Clara、Clarans等,都是利用单一的聚类中心进行聚类。为克服单一聚类中心只能描述凸状聚类的缺陷,CURE、DBSCAN等算法使用多个代表点(或稠密点)表述任意形状的聚类结构,但仍难以聚类重叠和噪声数据。为此,本文提出一种新的基于多层“聚类中心”(称为“核心集”)的凝聚聚类算法(MulCA)。该算法创新性地使用了“多层核心集”表述聚类结构,使得每一层数据集向其“核心集”凝聚,同时上层的“核心集”自动成为下层的数据集,随着每层核心集规模按α比例迅速减少,控制了凝聚过程的迭代次数。由于现代社会的快速发展,大规模数据已经成为需要处理数据的主要成员,为此,本文引入了基于随机采样计算ε-核心集(RBC)的技巧,将MulCA算法应用于大规模数据集。并做了实验证明了算法对大规模数据的有效性。在人工和实际数据集上大量的数值试验充分验证了MulCA算法的有效性,以及相比于其他算法的优越性。