论文部分内容阅读
聚类作为一种无监督学习方式,在机器学习与模式识别领域里得到广泛地应用。传统的聚类算法是基于距离度量数据之间的相似性。然而如今步入大数据时代,高维数据普遍地存在于各个领域。而高维数据内存在样本与各个簇的距离几乎相等的现象,这使基于距离的传统聚类算法失效。近年来基于表示的子空间聚类算法,如:稀疏表示和低秩表示,凭借在高维数据里优良的聚类性能得到了大量的关注与广泛地应用。本文对子空间聚类算法进行深入地分析探讨,对基于表示的子空间聚类算法存在的问题提出了相关的改进方法,提高了子空间聚类算法的性能。本文的主要工作如下:1、与稀疏表示子空间聚类利用稀疏技术和低秩表示子空间聚类利用低秩技术不同,本文利用Frobenius范数对子空间的表示系数矩阵提出协作表示。Frobenius范数具有分组效应:数据之间的相关性越大,表示系数矩阵内与数据对应的系数越相近,系数值越大。当数据属于同一个簇时,它们之间的相关性比较高,因此对应的表示系数的值较大;而数据属于不同簇时,它们之间的相关性比较低,则对应的表示系数的值较小。这种效应满足子空间聚类对表示系数矩阵的稀疏性要求,并且进一步提高了稀疏的质量。而且协作表示的Frobenius范数求解相比稀疏表示的1范数和低秩表示的核范数相比,其计算复杂度小了很多。2、基于表示的子空间聚类算法中表示系数矩阵构建与图谱分割是两个分开的过程。这两个分离的环节导致算法不能获得系数矩阵构建与图分割之间完整的内在联系。图分割的质量完全依赖于表示系数矩阵的质量,分割结果不能反馈到系数矩阵构建的过程中,无法形成一个闭环反馈。论文提出谱增强:先正则化图谱分割,并将正则项引入到表示系数矩阵构造过程中,力求形成全局最优的聚类结果。再将代表图谱分割结果的指示矩阵融入图拉普拉斯矩阵中,利用其指示性,提高图谱分割的正确性。图像聚类实验和运动分割实验证明了该算法的有效性。3、现有的子空间聚类算法考虑更多的是数据集的全局结构,容易忽略高维数据中潜在的局部的流形结构。本文将流形结构近似等效为其局部切空间结构。先求出切空间的基矩阵,然后线性重构基矩阵等效逼近切空间。再利用稀疏技术进行特征筛选,选择基矩阵的主特征向量,得到稀疏的重构系数矩阵。最后利用稀疏重构系数矩阵构建近邻图。利用近邻图的相似关系来指导系数矩阵的构建和指导半监督学习。论文将数据的先验标签信息通过正则化约束使其在近邻图上流动传递,完成半监督学习。人脸识别实验的结果表明本模型很大程度地提高了子空间聚类的性能。