论文部分内容阅读
聚类集成是机器学习中的一项重要方法,它通过组合聚类集体中多个具有差异性的聚类结果,获得一个更为准确和稳定的聚类结果。通过聚类集成可以有效地提高聚类结果的有效性。随着研究的不断深入,人们逐渐发现了聚类集成的某些缺点:组合多个聚类结果会很大的增加系统的计算和存储开销;随着聚类结果数量的增加,聚类结果间的差异性不断降低,使得最终集成结果的泛化性降低。因此,选择性聚类集成的概念被提出。选择性聚类集成不是使用所有的基聚类结果进行集成,而是从基聚类结果中选择一部分基聚类结果进行集成。在选择性聚类集成中,聚类结果间的差异性是衡量能否提高聚类集成结果性能的一个重要指标。因此,对于选择性聚类集成的研究主要包括以下几个方面:(1)如何产生具有差异性的聚类结果,使用具有差异性的聚类结果进行集成才能提高集成结果的泛化性;(2)如何对聚类结果间的差异性进行度量,为聚类结果间的差异性提供有效的度量方法是选择性聚类集成的关键所在;(3)如何选择聚类结果进行集成,对于不同的差异性度量方法,我们在选择聚类结果时也会有不同的方式。本文的工作主要围绕以下两个方面展开进行的。第一,提出了一种基于协方差的差异性度量方法(SBCRE)。该算法使用协方差对聚类结果间的差异性进行度量,通过实验得到一个协方差区间,并以此区间作为选择基聚类结果进行集成的标准。第二,提出了一种基于协方差的选择性聚类集成方法(SCEBC)。该算法首先通过三种不同的聚类方法产生基聚类器结果,再用SBCRE方法对基聚类结果间的差异性进行度量,最后选取某个区间的基聚类结果使用CSPA进行集成。实验证明了其有效性。