论文部分内容阅读
在许多领域,诸如:模式识别和机器学习,数据的维数可能成千上万。主成分分析(Principal Component Analysis,PCA)是进行降维和特征提取的一个广泛使用的工具。通过PCA对高维数据进行降维,可以解决以下三方面的问题。第一,在高维数据情况下,经常会出现数据样本稀疏,距离计算困难等问题,这种现象被称为维度灾难,缓解维度灾难的一个重要途径就是通过主成分分析方法降维;第二,主成分分析可以在压缩数据的同时让数据信息损失最小化;第三,通过PCA方法降维后的数据可以更容易的分析和理解。然而,传统的PCA对于实际应用中常见的异常值是非常敏感的。因此,近些年,许多基于鲁棒性的PCA方法被提出以提高算法的鲁棒性。然而,大多数鲁棒PCA方法有几个缺点。首先,使用2L范数对包含异常值的数据集进行中心化通常是有偏的;第二,如果矩阵直接对样本进行投影会得到不正确的低维表达;第三,大多数研究较少关注矩阵范数,而矩阵范数可以更好的利用矩阵的结构信息;第四,许多鲁棒性方法都不能保持对学习算法很重要的良好特性,比如:旋转不变性等。以上问题给鲁棒主成分分析的性能提升带来极大挑战。本文针对PCA的鲁棒性,重新审视了鲁棒的PCA模型,并基于新的模型提出了两种新的鲁棒的主成分分析算法。本文主要研究工作如下:1.本文重新审视了鲁棒PCA方法,并且发现大多数鲁棒的PCA方法在计算样本均值和样本的低维表达时有偏。因此,本文重新阐述了鲁棒PCA方法的目标函数去提高算法的鲁棒性。在新的目标函数中将均值作为一个优化变量,这种数据均值的估计对噪声具有鲁棒性。同时,本文提出了一种在低维特征子空间中估计图像真实位置的方法。而传统的PCA,样本的低维表达是通过直接投影来计算的。本文还讨论了新提出的目标函数的适用范围,并且对其有效性进行了理论和实验分析。而且,为了处理未知样本,本文提出了一个新的框架,它可以应用到所有的新模型下的鲁棒PCA方法。另外,本文发现当样本被噪声遮挡时,先前的2D投影方法的重建图片的质量较低。本文对其原因进行了讨论,并提出了一个新的两阶段鲁棒2-DPCA方法去处理这个问题。2.为了解决结构性噪声,本文在新的目标下提出了一个基于核范数的鲁棒PCA(N-PCA)方法。众所周知,当存在异常值时,距离度量会严重影响算法的有效性。而且结构噪声使得误差图片矩阵是低秩的,低秩函数一般很难求解,通常使用核范数作为低秩函数的凸包来代替低秩函数。因此,核范数可以充分利用误差图片的结构信息。N-PCA是一种使用核范数度量重建误差的二维PCA方法,它可以充分利用图像的空间结构,针对图像上存在的异常特征计算出鲁棒的投影向量。此外,N-PCA也利用新的模型来评估样本均值和数据的低维表达以提高算法的鲁棒性。3.本文将F-2-DPCA扩展到一种广义的距离度量学习方法,被命名为L2,p-2-DPCA。在L2,p-2-DPCA中,空间维数的重建误差用F范数度量,而所有样本的求和用pL范数。为了解决L2,p-2-DPCA问题,本文提出了一种迭代算法,每次迭代都有一个闭式解。与大多数鲁棒PCA方法相比,L2,p-2-DPCA具有以下优点。首先,由于L2,p范数减弱了大的变量的影响,L2,p-2-DPCA对异常值具有鲁棒性;其次,L2,p-2-DPCA是在新的模型下提出的能量函数,因此可以自动估计样本均值;第三,L2,p-2-DPCA保留了2-DPCA的理想性质(旋转不变性)。此外,本文还证明了2-DPCA和F-2-DPCA是L2,p-2-DPCA的两个特例。