论文部分内容阅读
现实生活中的许多数据都是从多个角度描绘的,例如,一些新闻是从各种来源进行报道的,从这些数据中探索有用的知识是数据挖掘的一个主要课题。现有大多数多视图数据都是未标记的数据,从大量未标记数据中挖掘有用信息成为不可避免的挑战。K-Means聚类算法被提出用于从大规模未标记数据中提取知识并获得了广泛的应用,然而,传统的K-Means算法的缺点是它只适用于单视图数据。近年来,不少学者已经提出了多视图聚类方法来克服传统聚类算法只能对单个视图进行聚类的限制。但是,这些方法几乎都没有充分考虑视图之间信息的相关关系从而没有使得参与聚类的各个视图信息拥有较高的互补性以及较低的冗余性。本文从两个角度讨论了多视图聚类的研究进展,针对现有多视图聚类方法存在的问题进行了深入细致的研究和探讨,取得的成果如下:(1)针对现有基于K-Means的多视图聚类方法未能有效权衡多视图之间信息的一致性与互补性这一不足,本文提出一种基于Bregman散度的多视图K-Means聚类方法。该聚类方法利用一种新的一致性度量指标—Bregman散度来度量聚类结果与多个视图之间的信息失真,聚类结果是通过最小化多视图一致性表示形成的聚类结果与多个视图之间的信息偏差来获得。此外,本文通过希尔伯特-施密特独立准则来度量视图之间的相似性,并通过权重向量来衡量各个视图的重要性,从而使得参与聚类的各个视图信息具有最佳互补性与最低冗余性。(2)现有的基于非负矩阵分解(NMF)的多视图聚类方法通常通过对多个视图数据学得一个公共的表示矩阵,然后在学到的一致性表示矩阵上应用K-Means等经典聚类算法得到聚类结果。虽然现有基于非负矩阵分解的方法由于其易于理解以及复杂度低获得了广泛应用,然而现有方法只考虑到各个视图的表示矩阵与学得的一致性表示矩阵之间的相关性,而没有考虑到多个视图表示之间的相关性。本文针对该问题,提出一种新的基于多样性约束的联合非负矩阵分解多视图聚类方法,该方法在联合非负矩阵分解的目标函数中添加对NMF得到的多个视图系数表示之间的多样性约束,利用希尔伯特-施密特来实现来对多视图系数表示之间的相关性的度量,通过权重来实现对参与到聚类的视图信息的多样性的控制。总之,本文针对多视图信息存在的一致性、互补性以及冗余性,考虑现有多视图聚类方法在信息融合方面的不足,提出两种多视图聚类方法,并在实验数据集上对所提方法的聚类性能以及收敛性能进行验证。本文的研究为多视图聚类提供了新思路与新方法,在多视图聚类领域有一定的理论和应用价值。