论文部分内容阅读
谱聚类算法是基于谱图划分理论的一种机器学习算法,是在谱图理论的基础上建立而成,其本质是将聚类问题转化为图的最优划分问题。与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点,而且可以获得在放松了的连续域中的全局最优解。但是传统谱聚类算法的一些缺点也是不容忽视的。首先它很难正确发现密度相差比较大的簇,参数的选取要靠多次试验和个人经验,其次,在传统的谱聚类算法中,不管是参数敏感问题还是聚类数目的难以确定问题,都会导致聚类鲁棒性过差。在聚类过程中,参数的数值和聚类的个数要靠研究人员经过多年实验和多次尝试去决定,不同的参数或不同的聚类个数可能会使得聚类结果有很大的差异。并且在传统的约束聚类算法中,随机查询策略也会带来聚类结果的不稳定性。本文针对上述所存在的这些问题对谱聚类算法进行了研究,具体内容如下:针对谱聚类算法对于密度相差很大的簇聚类效果较差的问题,本文通过加入成对约束概念指导谱聚类过程,建立了一对约束组,即must-link和cannot-link,该约束组被用以描述两个样本之间的关系。约束组中must-link代表两个样本属于同一簇,而cannot-link表示这两个样本属于不同簇。结合这种半监督聚类的思想,本文通过对传统谱聚类算法的改进提出了一种基于共享近邻的成对约束谱聚类算法PCSC-SN(Pairwise Constrained Spectral Clustering Based on Shared Nearest Neighborhood)。PCSC-SN算法是用共享近邻去衡量数据对之间的相似性,用主动约束信息找到两个数据点之间的关系。通过在人工数据集上的实验结果表明,这种算法会获得更好的聚类效果。为了解决谱聚类算法的参数敏感、聚类个数难确定问题以及在约束谱聚类算法中随机查询策略所带来的不稳定问题,本文提出了一种基于Bethe Hessian矩阵的主动约束谱聚类ACSCHM(Active Constrained Spectral Clustering Based on Bethe Hessian Matrix)算法,该算法使用了Bethe Hessian矩阵代替Laplacian矩阵,解决了参数敏感问题,通过Bethe Hessian矩阵负特征值的特征向量的个数来估计聚类个数,有效的解决了聚类数目难以确定问题。本文采用主动查询策略来代替原来的随机查询策略,克服了随机查询带来的聚类结果的不稳定问题,增强了算法的鲁棒性。实验结果表明,采用这种算法可以有效提高聚类准确率。