论文部分内容阅读
身处大数据时代,如何对现实生活中高维度、多冗余、易缺损、含噪音等复杂特点的大量图像数据进行处理和分析是科研界及工业界研究人员普遍关心的问题。子空间聚类作为有效处理和分析图像数据并挖掘价值信息的重要技术,在机器学习和计算机视觉等领域已被成功应用。最小二乘回归子空间聚类作为一种经典子空间聚类方法,具有解析解和组效应等优势。因此,本文以最小二乘回归子空间聚类(LSR)为工具,从图像数据易缺失、几何结构性、形式结构性及高维冗余等特点出发,提出三种图像数据的最小二乘回归子空间聚类模型,具体如下:1.实际问题中的图像数据易出现缺失值现象,而缺失值填充是子空间聚类的必要前提,缺失值填充的好坏将直接影响子空间聚类的效果,通常分两阶段的方式(即先填充后聚类)忽略了填充过程和聚类过程的关联性。针对该问题,本文将子空间聚类信息反馈回缺失值填充过程,在低秩矩阵填充(LRC)与矩阵分解填充(MFC)两种经典的填充算法基础上,提出缺失值填充与最小二乘回归子空间聚类联合算法(LRCLSR和MFCLSR)。在带缺失值的Hopkins运动分割数据集上的实验结果表明,该方法能有效提升聚类准确率。2.图像数据具有几何结构性,即近邻与远邻结构,目前多数子空间聚类算法都未利用图像数据几何结构中所包含的聚类信息。针对该问题,本文借鉴子空间降维中近邻保持思想,在最小二乘回归子空间聚类方法中加入近邻和远邻保持项,提出融入数据几何结构信息的最小二乘回归子空间聚类(GeoS-LSR),并从理论上证明该方法能进一步强化最小二乘回归子空间聚类算法的组效应。在人脸图像数据和Hopkins155运动分割数据集上的实验证明了 GeoS-LSR的有效性。3.图像数据自然结构为矩阵,而GeoS-LSR以及现有许多子空间聚类算法都需将矩阵样本转化为向量后再输入模型中,该做法一方面容易导致“高维小样本”问题,另一方面使样本原始非向量形式的结构受到破坏。针对上述问题,本文保留样本原始矩阵形式,将样本划分成若干局部块再加权聚类,提出分块加权最小二乘回归子空间聚类算法(WB-LSR)。另外,为避免划分局部块过程中导致样本全局信息损失,本文又利用子空间降维中的近邻保持思想,在WB-LSR基础上增加迁移项,将样本全局信息迁移至各局部块中,提出迁移最小二乘回归子空间聚类算法(TLSR)。研究表明,TLSR聚类效果相对WB-LSR有进一步提升,且WB-LSR和TLSR均优于现有子空间聚类方法和传统聚类方法。