论文部分内容阅读
集成聚类技术由于具有较好的泛化能力,已引起了研究者的高度关注。目前,在集成聚类领域已经取得一些显著成果,针对不同的应用需求提出了不同的集成聚类算法。然而,已有算法能够处理的数据类型比较单一,而实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,往往还存在着特征值缺失,数据规模海量,多视图等问题。因此,复杂数据集成聚类算法的研究具有非常重要的意义。 本文针对具有数据类型混合、特征值缺失、多视图等特征的复杂数据的集成聚类问题进行了较为深入的研究,主要研究内容如下: (1)介绍了集成聚类技术的整体过程,并对该过程中最关注的两个问题,详细总结并分析了现阶段已有的一些典型算法,同时对评价聚类有效性的三种比较流行的度量指标进行了介绍。 (2)提出了一种不完备混合数据集成聚类算法。该算法首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成。在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的。 (3)提出了一种多视图数据集成聚类算法。该算法通过在类的层次上进行集成来提高算法的计算效率,并且定义了一种新的类间相似度度量方法来解决多视图数据特征空间不一致的问题。在真实的多视图数据集上与传统集成聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的。 本文提出的两种集成聚类算法同时兼顾了聚类精度和运行时间,有效解决了实际应用中广泛存在的复杂数据的集成聚类问题。研究成果为复杂数据的集成聚类提供了新的策略,进一步丰富了复杂数据的聚类分析的研究。