论文部分内容阅读
聚类是数据挖掘的一个重要研究方向,然而并不存在一种聚类算法能够应用到所有数据集。聚类融合是解决上述问题的最佳方法,其主要思想是将多个聚类算法的结果合并,使最终结果优于单个聚类算法的结果。但是,和单一聚类算法相比,聚类融合计算复杂度高,结果容易受成员影响;现实生活中专家知识等约束信息有很多,但现有的聚类融合算法对于约束信息的利用率不高。本文通过五组实验对现有聚类融合算法进行比较分析,最终选择k-means和谱聚类共同生成成员,归一化割算法合并成员,同时成员数量设定为100。结合以上内容,本文从成员选择和共识函数两方面对其进行了改进,具体工作如下:本文提出了基于直接合并的多聚类选择算法(MCSDC,Multiple Clustering and Selecting Approaches Based on Direct Combining)和基于聚类合并的多聚类选择算法(MCSCC,Multiple Clustering and Selecting Approaches Based on Clustering Combining)解决现有成员选择算法没有同时考虑质量和差异性的问题。MCSDC采用四个聚类算法根据差异性对成员进行分组,选择每组中质量最高的成员直接合并得到最终选择的成员。MCSCC则在MCSDC选择的成员上采用k-means聚类选择方法得到最终选择的成员。实验结果表明,本文提出的两个成员选择算法优于其它的成员选择算法。本文在MCSDC算法的基础上,将约束信息用于共识函数提出了基于变色龙的半监督成员选择聚类融合算法(SSCEC,Semi-supervised Selective Clustering Ensemble Based on Chameleon)和基于Ncut的半监督成员选择聚类融合算法(SSCEN,Semi-supervised Selective Clustering Ensemble Based on Ncut)解决现有聚类融合算法对于约束信息利用率不高的问题。SSCEC采用变色龙算法作为共识函数,在子图划分和子图合并阶段利用约束信息。SSCEN采用归一化割算法作为共识函数,在二分图过程中利用约束信息。实验结果证明,本文提出的两个半监督成员选择聚类融合算法优于其它半监督聚类融合算法。