论文部分内容阅读
数据挖掘时代,数据可以从多源域中收集或者由不同的特征提取器提取。例如,一则新闻被不同的新闻媒体报道;一份文档被不同的语言表述;一段微视频包含图像、声音以及字幕。所有这些从不同角度描述同一对象的数据被称为多视角数据。一般而言,每个视角数据均可以用来设计一类单视角聚类模型,然而这类模型却无法有效地探索多视角数据间的互补信息,因此也无法进一步地提升聚类性能。如何充分地探索多视角数据间的互补信息以提升聚类性能已成为重要的挑战,多视角聚类引起了人们广泛的关注。此外,现实生活中也可以采集到多视角多示例数据,如带文本注释的图像,其中,图像文本数据均是以包的形式存在。如何有效地划分这些图像文本包也引起了人们的关注。从多视角聚类研究到基于图像文本双视角的多示例聚类研究,这里仍然存在以下问题:(1)多视角非负矩阵分解模型通常在多视角数据上执行非负矩阵分解,而多视角非负矩阵分解模型属于无监督的学习模型,这类模型无法有效地使用标签信息。(2)多视角非负矩阵分解模型无法确保,每个视角经过非负矩阵分解后所获得的特征表示具有相同的尺度。多视角非负矩阵分解模型均是融合不同视角的特征表示来整合多视角数据中的信息,然而融合不同尺度的特征表示必会带来模型聚类性能的下降。(3)现有的模型不适合解决基于图像文本双视角的多示例聚类问题。为解决以上问题,本文在约束非负矩阵分解的框架下对多视角聚类展开研究以及在概念分解框架下对基于图像文本双视角的多示例聚类展开研究。本文的主要研究工作如下:1.针对多视角非负矩阵分解无法有效地使用标签信息问题,本文设计一种基于约束非负矩阵分解的半监督多视角聚类模型。该模型首先基于约束非负矩阵分解框架,使用标签信息构建所有视角共享的标签约束矩阵,同时借助标签约束矩阵将每个视角中同类样本点融合在一起,以此保证了同类样本的标签信息不会发生改变。而后,模型借助协同正则化项整合不同视角间的互补信息,同时借助稀疏约束项提取每个视角的鲁棒特征。最后,在文本多视角数据集和图像多视角数据集上的实验结果表明该模型可以明显地提升聚类性能。2.针对多视角非负矩阵分解与信息融合问题,本文设计一种基于正交归一化约束非负矩阵分解的半监督多视角聚类模型。首先,借助约束非负矩阵分解框架,该模型不仅学习每个视角的低维度特征表示,同时也将每个视角中的同类样本点融合在一起。而后,模型引入一个新颖的正交归一化约束项,为每个视角获得一个具有判别力的归一化特征表示矩阵。随后,模型使用协同正则化项整合不同视角间的互补信息。最后的实验结果表明,设计的模型能够获得较好的聚类性能。3.针对图像文本双视角的多示例聚类问题,本文设计一种半监督双视角的多示例聚类模型。该模型将多示例核引入到概念分解中,学习每个视角的关联矩阵和两个视角共享的聚类指示矩阵。而后,模型借助l2,1范数获得了最优的关联矩阵和聚类指示矩阵。随后,为了提升包之间的判别力,模型强迫具有相同标签包的聚类指示向量间的相似性趋于1,不同标签包的聚类指示向量间的相似性趋于0。最后的实验结果表明,设计的模型可以明显地提升双视角的多示例聚类性能。