论文部分内容阅读
稀疏子空间聚类(Sparse Subspace Clustering,SSC)算法和基于低秩表示(Low-Rank Representation,LRR)的子空间聚类算法是近些年来非常流行的两种聚类方法。SSC算法的基本原理是利用数据自表示的稀疏性建立关联矩阵,然后对该关联矩阵使用谱聚类算法来获得比较好的聚类结果;而LRR算法则是利用数据自表示的低秩性建立关联矩阵。两种算法的关键步骤都是从数据出发来建立关联矩阵,以便确保属于同一子空间的数据点可用该空间内其它的点线性表示;但目标却是分别寻求尽可能稀疏的表示矩阵或尽可能低秩的表示矩阵。然而,对于数据量较大且含有未知噪声的样本,始终难以得到很好的聚类结果。本文对稀疏和低秩子空间聚类算法做了进一步探讨,提出了以下三种新的聚类方法,以提高聚类的准确率。(1)稀疏子空间聚类算法(SSC)通过最小化l1范数来建立目标函数,SSC可能一定程度上忽视了数据之间的联系,表现为关联矩阵的块对角结构较差。低秩子空间聚类算法(LRR)则从数据集的全局结构出发,通过矩阵秩最小化来建立目标函数,但矩阵秩最小化很难求解,因而人们通常采用核范数最小化来逼近秩最小化。为能同时考虑数据集的局部和全局结构,使关联矩阵兼具稀疏性和块对角结构,借助CLAR算法中用Logdet函数逼近矩阵秩的思想,本文将Logdet函数与F范数相结合,提出了加强局部结构和全局结构的有效子空间聚类(LSGS)算法。改进后的LSGS算法可以有效地改善分组效果,特别是在数据集规模较大的情况下,可以获得具有明显块对角结构的关联矩阵。(2)具有块对角结构的关联矩阵是得到理想聚类效果的重要保证。为了尽可能使得关联矩阵达到块对角结构,最小二乘回归(LSR)子空间聚类算法定义了集群效应来度量块对角结构的程度,并利用F范数最小化来增强关联矩阵的集群效应。本文在上述提出的LSGS算法基础上,通过引入描述集群效应的正则项建立数学模型,提出了加强集群效应的稀疏子空间聚类(ELSGS)算法。该算法不仅可以在数据集规模较大的情况下保留数据的局部结构和全局结构,同时更加加强了关联矩阵的块对角结构。(3)大量的实验证明,如果对l1范数进行合理的加权并且进行不断地迭代更新,可使基于l1范数最小化的子空间聚类算法的性能大大提高。因此,近年来人们提出了许多基于重加权(即迭代加权)的稀疏子空间聚类(RSSC)算法,特别是结构性重加权稀疏子空间聚类(SRSSC)算法,将结构性稀疏范数引入到RSSC算法中获得了很好的效果。此外,基于重加权l1最小化的噪声稀疏子空间聚类(TSRSSC)算法则将RSSC算法和两步l1范数最小化算法相结合,解决了先验信息未知的噪声数据聚类问题。结合SRSSC算法和TSRSSC算法的思想,本文提出的第三个算法为改进的结构性重加权子空间聚类(RSSCN)算法,推广了两步l1范数最小化算法及其改进算法。该算法即使不知道噪声的类型及相关参数,仍然可以执行出理想的聚类效果。