论文部分内容阅读
子空间回归是指一系列基于待处理数据统计学属性的回归问题,其核心目标为:对待处理数据进行回归后从而得到对应数据的子空间表达。由于子空间回归问题优良的统计学特征以及全局特性,使得其对于计算机机器学习和数据挖掘领域的诸多问题具有重要的作用,例如:数据的低秩重构问题,主成分分析问题,嵌入型特征选择问题和半监督、无监督的分类问题等等。由于正交子空间具有能够更好的保持流形结构的特性,本文主要关注于数据的正交子空间表达。虽然正交子空间具有良好的流形结构,但受限于正交约束的非凸性,使得对应的回归问题变的很难进行求解,亦或很难找到对应的最优解。基于解决所面临的问题,我们首先提出了自适应的框架,在全新的自适应模型和算法的基础上,针对正交子空间回归模型的鲁棒性、尺度变换以及流形结构等方面进行了相关的改进工作,从而全面提升了回归模型的性能。并将改进的模型分别应用于数据重构,分类器,谱聚类和稀疏特征学习等方面的研究工作上。综上所述,本文分别围绕2D主成分分析,子空间重构分类器,子空间聚类问题,基于图的半监督学习和嵌入式特征选择问题,进行了深入的研究,并提出了一系列全新的改进算法:1.2D主成分分析的提出是基于避免输入图像需要向量化的问题,在2D主成分分析的作用下,待处理图像不需要传统的向量化处理,使得原始图像可以直接被分析处理,避免了向量化存在的高维度问题,大大节省了处理时间并且提高了数据分析的精度。但是传统的2D主成分分析方法对于噪声数据或异常值较为敏感,针对此问题,我们基于本文提出的自适应框架,对传统的2D主成分分析模型进行了改进,从而提出了两种新的鲁棒模型。2.数据重构问题是利用低秩子空间高质量重构原数据的内容,但是其对于带有标签信息的数据利用率较低,换言之,虽然重构问题可以用低秩数据最大限度的逼近原数据,但是由于无法使用标签信息使得重构问题往往会得到不尽如人意的分类结果。基于此,我们提出重构分类器,其将数据的类别信息与重构问题有机的结合在一起,在保留数据统计学属性的基础上,最大限度的利用标签信息,从而得到更优越的分类结果。3.半监督学习分为两类:一类是指在知道部分数据的标签基础上进行的分类问题;另一类是指在知道部分数据的边界(点对)信息基础上的聚类问题。我们利用提出的自适应模型将两类半监督问题的模型进行了改进和提升。而对于无监督学习,换言之,数据在没有任何标签信息的基础上,我们主要关注和研究数据在正交子空间指导下的聚类问题。4.嵌入型特征选择是指将特征选择问题嵌入子空间的其他问题中,本文在自适应框架的基础上提出了两种新的自适应稀疏降维模型,并进一步将其应用于嵌入型特征选择问题上。