论文部分内容阅读
随着存储技术的发展,可获得的数据集在样本个数及样本特征维度方面都有很大的提高。因此,我们需要降维(Dimensionality Reduction,DR)技术来帮助探索和分析如此庞大的数据集。一般来讲,DR技术的目标是将高维数据表示在低维空间中,旨在:从知识发现的角度出发,识别出一个有利于预测输出的特征子集;通过减少特征的数量降低学习算法的时间和空间复杂度;消除噪音或不相关特征对预测准确度的影响等。现有的DR技术大致可分为无监督的特征转换技术和有监督的特征选择策略。
主元分析(Principal Component Analysis,PCA)和主坐标分析(PrincipalCoordinate Analysis,PCO)是两种经典的无监督降维方法。它们通过线性转换技术将高维数据转换到低维空间并且在降维的同时保留数据的最大方差。但是,由于降维后的每个主元(Principal Component,PC)是所有特征变量的线性组合,且线性转换矩阵中的元素非零,故很难理解推导出的主元。为了解决在降维过程中不易理解的问题,一些学者引入稀疏模型。现有的稀疏模型主要针对PCA,称为稀疏主元分析(Sparse PCA),其大致可分为两类:一类是基于回归框架,另一类是基于主元的最大方差特性。到目前为止,还没有关于PCO的稀疏模型。本文主要对现有的各种Sparse PCA模型进行研究,并做了如下几个方面的创新:
在对现有的两类Sparse PCA模型研究的基础上,由最佳得分(Optimal Scoring)框架推导出一种新的PCA的模型,并通过加入弹性网(Elastic Net)稀疏惩罚来获得Sparse PCA模型。实验结果表明,我们新提出的方法在应用于判别分析(Discriminative Analysis)的问题时,能获得更好的效果。
根据主元分析及主坐标分析之间的对偶性,我们将主坐标分析归到回归框架下,并同样加入elastic net稀疏惩罚来获得稀疏主坐标分析模型。实验表明,此模型能很好的捕获数据的潜在信息并且能获得较好的分类准确度。