论文部分内容阅读
机器学习方法通常分为有监督学习和无监督学习。分类器是有监督学习中的研究热点之一,子空间分割是基于子空间学习的聚类方法,属于无监督学习。机器学习的研究对象是数据,而涉及数据就必然避不开数据形式,数据污染等问题,不管是分类问题抑或是子空间分割问题都会受数据中的噪声影响。如何处理受污染数据是一个公认的难题。本文从统计推断的角度出发,将噪声估计看成一个鲁棒回归问题,结合目前前沿的稀疏表示分类器和低秩子空间聚类理论,提出了新的分类器和子空间分割算法。本文的主要工作包括以下几个方面: (1)本文提出了一种矩阵变量的稀疏表示方法,并将其应用于人脸识别。传统稀疏表示分类器是将输入图片转换成向量作为输入信号,然后再用一部分向量字典对图片进行编码,这个过程中通常不考虑图像的结构信息。本文直接用图像数据作字典来表示图像本身,通过假设图像数据中的误差矩阵服从某一种矩阵变量的椭圆分布,采用贝叶斯理论对误差进行误差估计,得到一个核范数正则化的稀疏表示模型。该模型对退化的,不独立的噪声鲁棒。这是因为模型将矩阵变量的椭圆分布引入图像表示,使得在处理图像数据时能保留图像本身的矩阵形式,获取更多的空间数据信息。本文使用交替方向的拉格朗日乘子法(ADMM)算法求解这个问题,并且在文中给出了算法的收敛性的详细证明。实验在多个人脸数据库上证明了该算法的有效性。 (2)本文在低秩表示的基础上,提出了改进的低秩表示聚类方法。低秩表示是将数据集分解成一组字典的低秩线性组合与一个噪声矩阵的和,通常选择数据集本身作为字典。然而在处理受污染数据的时候,数据本身并不是最优字典,因为其中所含的噪声会影响聚类结果。本文从最优化理论的角度证明了无噪声的数据矩阵是低秩表示的最优字典。根据这个结论,文中提出了学习一个无噪声的低秩表示字典的方法:在求解低秩表示的同时,不断在原数据矩阵中去除当前的噪声矩阵,以保证每一步的计算过程中都不断降低噪声影响,实验表明该算法能有效处理含噪声数据的聚类问题。 (3)本文基于低秩表示聚类,提出了一种鲁棒的低秩表示聚类方法。对于子空间分割问题,有一个基本假设,高维数据集是位于一个或几个不同的低维线性子空间中的。所以子空间分割问题往往会采用低秩表示方法。但是在稳定性方面,低秩表示只能处理异常点或者稀疏噪声。对于块状噪声或者混合噪声污染,低秩表示并不稳定。于是本文提出了鲁棒的低秩表示(Robust low-rank representation,RLRR)来处理混合噪声污染的多维数据集的子空间分割。原先的低秩表示模型是假设数据集中的噪声是稀疏的。从统计推断角度看,也就是假设噪声服从拉普拉斯分布。现实生活中的噪声是以各种形式存在的,并不一定服从拉普拉斯分布或者高斯分布,所以文章把低秩子空间分割问题转化成一个低秩约束的鲁棒回归模型,然后再用最大似然估计来估计数据中的噪声分布,再根据分布预测噪声强度,以此去除噪声对子空间分割造成的影响。实验表明该算法对多类噪声污染数据比较鲁棒。 (4)本文基于鲁棒主成分分析(Robust principle components analysis,RPCA),提出了一种鲁棒的图像修复方法。鲁棒主成分分析假设数据中噪声稀疏,通过最小化噪声的L1范数实现稀疏约束。这等同于假设图像数据中的噪声服从拉普拉斯分布。然而图像数据中的混合噪声并不只有这一种形式,所以本文提出了一种新的概率分布,引入两个可变参数,以此更好地自适应地拟合混合噪声。然后用提出的分布根据噪声强度设置权值,控制噪声对修复结果的影响。再根据图像数据本身的低秩性,将图像分成低秩部分和噪声部分,这样得出的图像可以去除复杂的块状遮挡,极度光污染等混合噪声。实验表明该算法能有效修复图像中的缺失数据。