论文部分内容阅读
聚类分析是数据挖掘和机器学习领域一种重要技术方法之一,在很多领域都有广泛的应用,尤其应用在对大数据等问题的处理和分析上。聚类根据一种给定的相似性度量方式,将所有数据对象划分为不同的簇,要求簇内相似度最大而簇间相似度最小在实际问题的解决中,无监督的聚类方法不能利用少量的先验知识,单一的聚类算法很难满足对结构和分布复杂多变的数据集合的处理。半监督聚类集成技术正好弥补了这方面的缺陷,充分利用半监督学习和集成学习技术,并将其应用到聚类分析中,可以有效的提高聚类的性能。然而由于半监督聚类集成研究刚刚兴起,其很多理论机理知识不是很成熟,理论方面的研究可以为半监督聚类集成技术的发展提供有力的支撑。半监督聚类集成技术充分的利用先验知识指导聚类过程,提高聚类的性能,同时利用集成学习的思想,将多个基聚类结果进行组合达到更优化的划分效果。受半监督学习和聚类集成等技术研究的启示,结合概率统计的知识,本文对半监督聚类集成的相关理论进行了数学分析和讨论。在对半监督聚类集成模型和参数进行相关假设的前提下,对其收敛性进行数学证明和分析;引入鲁棒半径的概念来表示鲁棒性程度的范围,对半监督聚类集成的鲁棒性进行分析。然后本文提出一种基于关联矩阵的统一类标签方法,对基聚类(划分)类标签进行统一对齐,将先验知识以约束对的形式加入到基于多数投票法的半监督聚类集成模型中。实验结果表明,先验知识可以提高基聚类和半监督聚类集成的性能,半监督聚类集成具有收敛性和鲁棒性等性能,改进的基于多数投票法的半监督聚类集成方法可以获得较好的聚类效果。半监督聚类集成技术,能够有效的利用先验知识指导聚类和集成过程,且通过融合具有一定差异性的基划分结果,可以有效的提高聚类的性能。本文基于统计学知识,证明了半监督聚类集成方法具有收敛性,同时分析了其鲁棒性性能,提出一种鲁棒性度量方法;提出了一种基于多数投票的半监督聚类集成模型。实验结果表明,随着差异性基划分成员数量的增加半监督聚类集成结果具有收敛性,且其鲁棒性性能也比较好;充分利用先验知识后,基于多数投票法的半监督聚类集成方法可以有效的提高聚类的性能。