论文部分内容阅读
“大数据”时代,我们需要面对大量高复杂度、高维度数据的分析处理,例如丰富多彩的图像和视频、文本等。一些研究表明,这些数据样本所分布的高维空间,往往存在着低维结构,可以用一系列低维子空间的集合进行有效近似。将各个数据样本按照其潜在低维子空间结构进行有效划分,称之为子空间聚类问题。近些年来,子空间聚类算法已经成为当前聚类分析研究的热点问题之一,涌现出许多子空间聚类算法,其中基于谱聚类的子空间聚类算法变得越来越流行。这类方法主要分为两个步骤:第一步,从数据样本中学习其相似度度量;第二步,对相似度矩阵应用谱聚类算法,得到一个合理的数据划分。然而由于缺少有效的特征抽取以及没有应用相关的增强信息,子空间聚类算法应用范围较为有限。本文从探索挖掘数据样本增强信息角度,提出了信息增强的子空间聚类算法研究,开展如下几个方面的创新性工作:(1).本文提出了一种低秩结构化稀疏子空间聚类算法(Low Rank and Structured Sparse Subspace Clustering,LRS3C)。基于低秩表示模型,通过探索挖掘数据样本的结构化稀疏信息,融合到子空间聚类的自我表示模型优化过程中,构建一个信息更丰富的相似度矩阵;此外,建立起自我表示模型与谱聚类算法之间的相互联系,形成了一个联合优化框架,应用线性交替方向法(LADM)进行优化求解。在两个基准数据集上验证了所提出LRS3C算法的有效性。(2).本文提出了一种块对角先验增强深度卷积子空间聚类网络(Convo-lutional Subspace Clustering Network with Block Diagonal Prior,ConvSCN-BD)。通过探索块对角先验信息在子空间聚类相似度学习中的增强作用,融合到自我表示模型的优化过程中,构建一个具有块对角结构的相似度矩阵。此外,ConvSCN-BD网络基于卷积自编码网络进行特征抽取,学习得到符合低维子空间结构的有效特征,从而更好进行子空间聚类学习。在三个基准数据集上的实验验证了ConvSCN-BD网络的有效性。(3).本文提出了一种自我监督深度卷积子空间聚类网络(Self-Supervised Convolutional Subspace Clustering Network,S2ConvSCN),将卷积模块(用于特征学习)、自我表示模块(用于相似度学习)、谱聚类模块(提供自我监督信息)联合成为一个端到端可训练的网络框架。通过将子空间聚类结果反馈回来,形成一种对子空间聚类网络的双重自我监督机制。具体来说,将网络优化过程中生成的聚类结果视为一种聚类分析的后验信息,周期性反馈回来,作为伪标签使用,监督指导子空间聚类网络自我表示模块与特征抽取模块的优化训练。在四个基准数据集上的实验,证明了子空间聚类网络双重自我监督机制的有效性,并证明我们提出方法的优越性能。(4).本文提出了一种辅助信息增强的约束稀疏子空间聚类算法(Con-strained Sparse Subspace Clustering with Side-Information,CS3C+)。在一些实际应用中,往往存在着用来指示成对数据样本“必须连接”或“不能连接”关系的相关信息,称之为数据样本的辅助信息。探索挖掘辅助信息对子空间聚类学习的增强作用,将部分可用辅助信息编码为一个权重矩阵,加入到自我表示模型的学习过程中,用以鼓励“必须连接”数据样本之间的相似度,抑制“不能连接”数据样本之间的相似度,从而学习得到更好的相似度度量。此外,辅助信息也融合到谱聚类过程中,形成了一个子空间聚类自我表示模型与谱聚类算法的联合优化框架。在三个癌症基因基准数据集上的实验,验证CS3C+算法的有效性。