论文部分内容阅读
集成学习(Ensemble Learning)是指利用多个学习机解决一个问题。90年代中期开始,集成学习逐渐成为机器学习中最热门的研究领域之一。集成学习早期的研究都集中在监督式学习中,而对非监督式学习,或者说聚类集成的研究直到近年来才逐渐受到重视。本文针对聚类集成技术中的几个关键问题进行了研究,取得的创新性研究成果有:(1)对基于数学形态学的聚类集成算法进行了研究。首先提出了一种基于数学形态学的聚类分析算法COHMMOP,它将用于图像处理的方法引入聚类分析,得到了理想的效果。然后基于此研究结果之上,提出了基于数学形态学的聚类集成算法CEOMM,它利用不同的结构元素的探针作用,对不同的结构元素探测出来的簇核心进行集成,在集成所得到的簇核心基础上聚类。实验结果表明COHMMOP能对具有复杂形状且类间隔很小的数据集进行聚类。由于采用了不同的结构元素进行探测,算法CEOMM对于由不同形状的类构成的数据集,比只使用一种结构元素进行探测更理想。(2)对聚类集体的差异性度量进行了研究,基于分类集成中的一些度量提出了四种聚类集体差异性度量。实验结果表明各种差异性度量与集成准确度之间并没有严格的单调正相关关系,影响这种相关性的因素很多,在不同的平均成员准确度情况下,不同的集体大小情况下,不同的数据分布情况下和不同的集成方法情况下,这种相关性都不同。但是实验结果也表明当平均聚类成员准确度高于0.6,集体大小为15到20左右,待聚类数据集有均匀簇分布时,各种差异性度量与集成方法性能间的相关程度很高。并且在比较不同的集成算法在同一个聚类集体上的集成性能时,发现与差异性度量相关系数更高的集成算法,集成性能也更好。(3)对聚类集体的生成进行了研究,提出了基于添加人工噪声数据的构造差异性聚类集体的方法CEAN。在此基础上,进一步提出了增强型差异性聚类集体构造算法ICEAN,它首先用CEAN产生一个比较大的集体,然后对此集体进行聚类并从中选择出差异成员构成一个更小但差异性更大的聚类集体。实验证明CEAN和ICEAN产生的聚类集体的差异性很高。(4)对聚类集体的集成(也称为一致性函数)进行了研究。提出了聚类集成算法CMCUGA,它首先基于信息理论构造了评价与聚类集体统一程度的准则函数,从而将聚类集成问题转化成了优化问题,然后使用经典遗传算法来找到这个与聚类集体最统一的聚类结果。CMCUGA集成算法容易理解,而且它借用成熟的遗传算法来达到集成目的,不容易陷于局部最优点。实验证明CMCUGA集成算法的性能比较理想。还通过把聚类集体当成一个概念型数据集,应用概念型数据聚类算法k-modes和LIMBO来进行聚类集成。实验结果证明用概念型聚类算法进行集成,效果还是比较好的,特别是用LIMBO集成的效果相当理想。(5)提出了基于集成技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据的相似性矩阵,基于此相似性矩阵,应用谱聚类算法得到混合数据聚类结果。实验证明它对混合型数据聚类的效果相当不错,对噪声的鲁棒性也较好,并且它能有效融合进先验知识。