论文部分内容阅读
近年来,由于数据采集手段的丰富和多样化,往往从不同的的角度对同一事物进行描述,从而产生了大量的多视图数据。这些数据大部分是以无标记的形式存在,因此对此类无监督数据的分析与挖掘显得尤为关键。聚类分析作为机器学习中一种重要的无监督学习方法,可有效挖掘出数据中的有价值信息。本文在理解和分析前人工作的基础上,提出了一系列基于划分模型的多视图聚类算法,具体工作如下:1)提出了一种基于子空间结构保持的多视图协同聚类算法。该算法在单个视图中利用整体和局部聚类结构保持的降维技术获得子空间聚类结果,并利用该结果指导其他视图中子空间聚类结果的形成,从而在多个视图上获得聚类内紧凑、聚类间离散、近邻关系保持的聚类划分。通过人工数据集以及真实数据集上的实验,证明了算法的正确性与有效性。2)提出了一种基于模糊划分的多视图聚类算法。与硬划分的多视图聚类算法相比,该算法能够较为真实的描述多视图数据与各个类别之间的关系,对聚类结果具有较好的解释性。此外,该算法对各个视图设置不同的权重,通过优化多视图聚类目标函数,可获得最优的视图权重,从而反映出不同视图的重要程度。实验结果表明,该算法不仅可获得多视图数据与类别之间的模糊隶属关系,而且可优化出有效的视图权重。3)提出了基于在线学习策略的多视图模糊聚类算法。该算法对数据进行分片,设计出聚类中心和聚类隶属度的在线更新模型,依次对每个数据块进行处理从而获得最终聚类结果。该算法在对当前数据块进行多视图模糊聚类的同时需考虑之前所有数据块聚类合成过后的信息,从而有效解决内存限制问题。实验结果表明,该算法在实现在线多视图模糊聚类模式的同时保证了聚类的正确率。