论文部分内容阅读
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它自发地将数据对象聚于多个簇,使同一个簇中的对象之间相似程度越大,使不同簇中的对象具有更大的差异度。在描述一些实际问题的过程中,同一个事物可以从不同的途径、不同的角度或者不同的形式进行描述,多种不同的描述为事物的多个视图,数据为多视图数据。随着信息技术的发展,多视图数据越来越多,且因其包含有更多的信息量,在数据处理中越来越受到关注。虽然已有许多传统的聚类算法,但是针对多视图数据,传统聚类算法无法很好的应用并产生较高质量的聚类结果,多视图聚类应运而生。非负矩阵分解(Nonnegative matrix factorization,NMF)能够有效得将高维数据映射到低维空间,是一种有效的特征提取方法。本文以NMF为基础,结合多视图聚类与聚类集成,提出了两种多视图聚类算法和一种聚类集成算法。基于NMF的潜在特征学习多视图聚类算法,将NMF的优点与相似度矩阵相结合,利用联系两者的一个系数矩阵对多视图进行聚类,且自主学习权重,从而达到更优的聚类效果。基于NMF的潜在特征整合多视图聚类算法设置了一个样本相似度矩阵来表示样本之间的相似度,和一个基相似度矩阵来衡量样本各维度之间的相似性。其关键是在样本相似度矩阵的约束下,通过非负矩阵分解获得样本之间的共有特征;当样本间共用一个基空间时,样本之间的差异被最大化,在基相似度矩阵的约束下,获得样本的互补特征。通过整合这两个潜在的特征,对多视图数据进行聚类,从而达到更好的聚类效果。聚类集成整合一种或多种聚类算法,多次聚类结果的方法。可以有效提高聚类精度、聚类的稳定性和鲁棒性。为了解决通过原始数据集获得的基聚类结果存在一定的信息丢失,使得集成阶段的有效信息减少的问题,提出了一种基于NMF的K-means聚类集成算法。该算法先通过K-means聚类算法获取集成信息,同时从原始数据集获取数据的相关性,将两者结合然后通过非负矩阵分解技术构建共识函数获得最终结果。实验证明了所提出的算法可以有效的获取原始数据潜在更多的信息,约束非负矩阵分解过程从而提高聚类质量。