论文部分内容阅读
数据的复杂性不仅体现在数据的高维表示,还体现在数据具有从不同途径或用不同特征构造方法所获得的多视图表示。基于自表示的子空间聚类算法是解决高维数据聚类问题的一类重要方法。多视图子空间聚类算法是子空间聚类算法在多视图数据上的扩展。近十年来子空间聚类算法和多视图子空间聚类算法已经在运动分割、图像处理等问题中得到了广泛的应用。针对现有的基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分治式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据,本文提出了一种基于分治法的低秩张量子空间聚类算法(DFC-TLRR),该算法将传统的基于向量表示的子空间聚类算法推广到了高阶张量数据,并提出了一种用于求解张量优化问题的分治算法。DFC-TLRR首先将高维数据转化为高阶张量,在数据的自表示中引入张量乘法运算,使其能直接处理高维数据;然后采用分治法并行求解优化问题,从而得到数据的低秩子模表示;最后通过对子模表示的稀疏化处理,得到数据间的相似度矩阵。在公开数据集Extended Yale B、COIL20和UCSD上与DFC-LRR的对比实验结果表明,所提算法能有效地提高聚类正确率,且并行计算能明显降低算法的运行时间。现有的多视图子空间聚类算法大多仅探究不同视图之间的一致性或互补性,缺乏对二者的综合考量,同时未考虑不同视图的数据对模型的贡献程度。为此,本文提出了一种基于一致流型约束的稀疏多视图子空间聚类算法(CMSMSC)。一方面,该算法为不同视图的子空间表示矩阵动态自适应地学习视图权重,并采用线性加权的方式计算关于所有视图的一致子空间表示矩阵,通过添加关于视图权重的正则项,保证了权重分布的光滑性,增强了多视图之间信息的互补性。另一方面,该算法预先利用多视图局部线性嵌入模型(MVLLE)在样本的原始高维空间中建立了样本之间的局部几何关系,随后在我们的模型中通过构建关于一致子空间表示的图正则项引入该信息,从而不仅有效地在低维子空间中保留原始数据的局部结构信息,还保证了不同视图的子空间表示的一致性。在六个对应不同应用场景的真实数据集上的对比实验表明,本文算法具有出色的稳健性及聚类表现。