论文部分内容阅读
在机器学习与数据挖掘等实际应用问题中,如人脸识别、图像分类等领域,往往要处理大量的高维数据。数据的高维特性不仅增加了学习算法的计算开销,而且也掩盖了数据的内在真实结构,这使数据的分析和处理变得极为困难。降维是解决上述问题的有力工具,降维是将数据通过一个映射从高维空间变换到低维空间中,从而发现数据内在的几何结构并减少既定学习任务计算开销的方法。因此,数据降维是机器学习与数据挖掘领域的研究热点之一。 本论文围绕数据降维方法开展研究,发展了一类基于最小二乘和低秩矩阵分解的降维方法,主要的贡献如下: 1.在最小二乘的框架下提出了保结构的线性判别分析(LocLDA)用于数据降维。通过在最小二乘的线性判别分析(LDA)中引入图Lapalacian正则项,使LocLDA不仅具有鉴别能力,而且还能刻画数据的内在流形结构。进一步的分析表明LocLDA的解等价于一个小规模的对称正定线性方程组的解,该线性方程组可以通过预条件共轭梯度法快速求解。在UCI数据集和人脸库上的分类实验结果表明了LocLDA算法的有效性。 2.传统降维方法都要求训练数据是干净的,实际应用中的数据总是存在缺失或者噪声等问题,传统的降维方法对数据噪声和缺失缺乏鲁棒性。本文在最小二乘的框架下提出了鲁棒的判别分析(RDA)。RDA利用低秩和稀疏理论恢复干净数据,用基于L1范数度量的损失函数学习降维投影矩阵。本文提出了基于近似梯度法的增广拉格朗日方法来求解RDA优化问题,并详细分析了数值算法的收敛性。在干净和污染数据集上的实验结果验证了RDA的优越性及鲁棒性。 3.提出了最小二乘的多标记线性判别分析(LSMLDA)。传统最小二乘的线性判别分析仅仅适用于单标记数据,无法直接用于高维多标记数据的维数约简。多标记线性判别分析(MLDA)需要求解一个维数较高的矩阵特征值问题,计算开销非常大。本文建立了MLDA的特征值问题与最小二乘问题的等价关系,从而得到了最小二乘形式的MLDA(LSMLDA)。LSMLDA可以通过线性方程组的快速求解得到最优解。此外,本文通过对投影向量施加基于L2范数和L1范数的约束,用于控制LSMLDA模型的复杂度及提高模型的泛化能力。在三个标准的多标记数据集上的实验结果验证了LSMLDA及其推广的优越性。 4.提出了局部敏感的低秩矩阵分解降维模型。在该模型中,通过引入正交约束使得到的投影矩阵是半正交的,这在一定程度上减小了数据的重构误差。为刻画数据空间的内在几何结构,本文通过投影矩阵和数据矩阵构造了自适应的局部算子,该局部算子可通过学习获得。提出了基于凯莱变换(Cayley transformation)的流形优化迭代交替交替求解优化变量,从而保证了投影矩阵的正交性,在公开数据集上的分类实验验证了所提模型具有更高的分类精度。