论文部分内容阅读
随着信息采集技术的飞速发展,数据通常采集自不同的来源或者由不同的特征集合进行描述,这类数据被称为多视图数据。多视图数据比单一视图数据包含更丰富的信息,能够有效地提升下游学习任务学习性能,所以多视图学习已经成为机器学习与数据挖掘领域的一个研究热点。视图的增多造成样本标注所需的人力成本骤增,因此多视图聚类作为一种重要的无监督学习范式受到广泛的关注。现有的多视图聚类算法通常假设样本在多个视图上都拥有完整的表示,然而在实际应用中,不完整的多视图数据是普遍存在的。为了有效划分不完整多视图数据点,近年来不完整多视图聚类研究有了显著地发展,但是仍有一些关键问题亟待解决:如何确定视图融合过程中不同视图所占权重;如何将特征学习与聚类统一起来,避免次优结果;如何充分探索视图之间复杂的非线性关系。针对上述问题,围绕不完整多视图聚类,本文完成了两个创新工作。提出了一种基于线性近邻重构的不完整多视图聚类算法,该算法通过加权矩阵分解技术学习多视图潜在表示。具体来讲,在矩阵分解过程中,各个视图拥有各自的基矩阵的同时共享着多视图统一表示。这有效地解决了视图权重分配问题,并且能够有效处理多于两个视图的数据。然后,利用线性近邻重构对潜在表示矩阵进行重构,在样本的邻域内探索样本之间的重构关系,所得到的自表示矩阵展现出清晰的块对角结构,正确地揭示了多视图数据的本质结构。最后,在自表示矩阵的基础上构建相似矩阵,并且应用谱聚类获得最终划分结果。总的来说,本模型将潜在表示学习、自表示学习、谱聚类联合到一个框架内,统一优化求解,保证所学的特征表示是最优的。通过充分的对比实验表明,所提出的模型与现有的聚类算法相比获得明显的优越性。提出了一种基于自监督的深度不完整多视图聚类算法,该算法利用一组视图特定自动编码器学习每个视图的低维表示,自动编码器给予了本模型非线性能力。然后通过两种不同的特征融合机制:加权平均与特征拼接,考虑不同层次的特征融合。获得两个公共表示后,经过全连接分类网络得到两个标签预测矩阵,通过最大化它们的互信息挖掘多视图之间的一致性。两个标签预测矩阵之间连接两组自动编码器,互为输入输出,实现自监督机制,为特征学习提供监督信息。在测试阶段通过两个标签预测矩阵加权平均,可以直接得到最终聚类结果。最后,在四个真实数据集上,与七种基准算法的对比实验结果验证了本算法的有效性与可比性。