论文部分内容阅读
密度峰值聚类算法(Clustering by fast search and finding of density peaks algorithm,简称为DPC)是2014年发表于Science杂志上的一种新型聚类算法,该算法与传统算法相比,具有参数少,聚类过程无需迭代,可以发现任意形状的簇等多个优点,该算法为近年来聚类算法的一个研究热点,并被广泛应用于各种领域。尽管DPC算法在大多数数据集上可以表现出良好的聚类效果,但是该算法仍然存在不足之处:(1)该算法需要人工干预进行中心点的选择,导致聚类结果具有主观性;(2)该算法默认一个簇内只有一个中心点,对于存在多个中心点的簇容易进行误分。为了解决DPC算法存在的问题,本文结合线性拟合方法,提出了一种改进的线性密度峰值聚类算法(Linear fitting Density Peaks Clustering algorithm,简称为LDPC),该算法进行了两方面的改进:(1)LDPC采用线性拟合的方式自动进行类簇中心的确定;(2)LDPC根据同簇中数据点密度直达的原则对同一簇中多个中心点进行合并。LDPC算法的核心思想为自动进行类簇中心的确定,为了验证LDPC算法的有效性,本文采用经典的K-Means算法验证LDPC算法是否可以自动并准确地确定类簇中心,使用LDPC算法对K-Means进行初始化,本文将使用LDPC初始化的K-Means改进算法命名为LDKM算法(Linear fitting Density Peaks K-Means algorithm)。算法结果表明LDPC可以准确地确定类簇中心,即算法验证了LDPC的有效性。本文采用五个人工数据集以及三个UCI数据集对LDPC以及LDKM算法进行实验,验证了算法的有效性,并与K-Means、FCM、DBSCAN、DPC算法进行对比,实验表明LDPC算法在大部分数据集上表现最优,评估指标优于其他算法。LDPC相对于传统算法而言,适用的数据类型更加广泛,可以处理任意形状的数据集;相对于DPC算法而言,无需人工干预运行过程,并且实验结果更优。LDKM算法在实验数据集上的评估指标值均优于传统的K-Means算法,LDKM相对于传统的K-Means算法而言,无需传入参数,并且聚类效果更佳,表明使用LDPC进行K-Means算法的改进效果良好。最后,本文将LDPC和LDKM算法应用于图像分割领域,与其他算法相比,实验结果轮廓清晰,并且噪音少。最后将LDPC算法应用于白细胞的分类识别,对血细胞图像进行背景噪音消除,只保留白细胞,方便后续处理,实验表明,LDPC算法可以完整提取出白细胞,提取结果纯净。