论文部分内容阅读
聚类集成是集成学习中的一个重要分支,它是为了解决无监督的聚类分析中可能因为样本的特殊数据分布与假设条件不匹配,导致聚类结果不理想的问题。聚类集成是对聚类集体中的所有聚类成员进行融合后获取最终的聚类划分。选择性聚类集成则是对聚类集成进一步研究所提出来的想法,这也是为了能够更好地提高聚类集成的效果。在选择性集成的学习中,选择准则是一个非常关键的问题,其中聚类成员的准确性以及差异性作为选择性聚类集成的重要依据。准确性是指单个学习器的效果,而差异性则是针对多个学习成员来说的,倘若集成的成员没什么差异性,则集成就毫无意义,只会是浪费时间和精力,倘若所有的成员都是各抒己见,众说纷纭,同样会使得集成陷入不确定性中,因而选择怎样的差异性聚类成员对最终的聚类划分可能产生不同的影响。差异性是提高聚类集成性能的一个重要因素,但如何更有效更确切地度量聚类成员间的差异性仍然有待深入研究。对于差异性的研究主要包括以下两个方面:(1)寻找更有效的方法来度量聚类集成的差异性,使之能更确切地体现其相关性;(2)寻找集成性能与差异性大小的关系,研究差异性是在怎样的情况下可以使得聚类集成得到更好的结果,从而依据研究结果来指导聚类集体的选择。本文的工作主要从三个方面来进行的。第一,针对成对差异性度量方法中存在的问题进行了改进,提出了可以反映所有成员间差异性的波动值,对最终的集体差异性值进行调整,使之能更确切地代表集体的差异性;第二,提出一种基于数据关联的聚类集成方法(DRBCE)。该算法主要先提取出在聚类成员中体现出关联的数据对象组成新的类,然后再对这些类再次聚类得到最终的集成结果,并通过实验证明其有效性。第三,通过提取不同区间大小的差异性聚类成员组成聚类集体,分析在不同集成结果的情况时,其内部成员差异性的波动性,以及聚类集体的差异性大小与集成间的关系。