论文部分内容阅读
聚类融合首先生成一个包含多个不同聚类成员的聚类成员集,然后将其合并为一个更准确的共识分区。学者们普遍认为对于优质的聚类融合,其聚类成员应彼此不同,同时每个聚类成员的质量也应维持在一个可接受的水平。许多算法可用于生成不同的基聚类划分。与分类集成相似,诸多研究关注不同聚类成员的生成过程,例如对不同数据子集进行聚类(随机抽样)以及对不同特征子集进行聚类(随机投影)。然而,很少有研究关注这两种不同的抽样方法在质量和差异性上的性能比较。在本文中,我们提出了一种基于随机抽样的聚类成员生成新方法,通过寻找最近邻样本的方式来填补抽样时缺失样本的类别信息(简称为RS-NN)。我们通过与基于传统K-means的聚类融合方法、典型的随机投影方法(随机特征子集,简称为FS)以及另一种随机抽样方法(基于最近邻中心的随机抽样方法,简称RS-NC)进行对比来验证该方法的有效性。实验表明,FS总能取得更多样化的聚类成员集而RS-NC能取得较高的成员质量,我们提出的RS-NN方法则能在两者中合理地协调,在取得优异差异性的同时获得显著的性能提高。另外,为了追求更高的差异性,我们提出了一种基于RS-NN和FS的双随机抽样方法FS-RS-NN,该方法在保证一定质量的同时取得更高的差异性,并在不增加时间代价的前提下获得可比较的甚至更优的聚类融合效果。聚类融合已成为一个十分重要的数据分析工具,可以生成一个更强大更准确的共识聚类结果。现有研究表明,要得到较优的聚类融合结果,必须同时考虑聚类成员的质量和聚类成员之间的差异性。然而,很少有研究将其与先验背景知识结合起来。在本文中,我们首先对聚类成员的质量和差异性进行了简要的理论分析,然后提出了一个统一的框架来解决基于约束的聚类融合选择问题,其中样本之间的“必须连接”和“不能连接”约束作为给定的背景知识。我们将该问题转化为了一个联合优化问题,其中包含了基于给定约束的一致性、融合成员之间的差异性以及聚类成员的质量。该框架结合了两个决然不同却紧密相关的聚类主题:聚类融合和半监督聚类。我们研究了四种不同的聚类融合选择技术以追求高品质的聚类融合选择方案,实验充分说明了该框架的可行性和有效性。