论文部分内容阅读
在模式识别,机器学习,数据挖掘等研究领域里面,我们往往需要通过降维的手段从高维数据中提取出能代表数据特性的最优特征,去除冗余的部分,来提高判别未知数据类别的正确率对于分类问题,一种常用的手段是通过一个投影矩阵作用到原始数据,将原始数据投影到低维空间以形成新的低维数据。我们的目标是找到最优的投影矩阵,使得在低维空间中,不同类之间的数据点尽可能分散,而类内数据点尽可能靠拢。这样就能提高数据分类的正确率,而所求得到的投影矩阵就是保留数据关于类别信息的最优特征矩阵。本文首先介绍了目前已有的提取高维数据判别分析方法的背景,问题描述以及研究现状,从全局角度介绍了PCA算法和LDA算法,又从局部角度介绍了NPE算法和LSDA算法,同时提出了在小样本问题情况下算法的解决方法。然后针对LSDA所建立的数据模型,提出了两种最优化问题,分别利用零空间算法及其扩展开来的双空间算法和迭代法加以解决,同时证明了满足某个条件下,两种优化问题的等价性。最后,针对迭代法计算量过大的问题,应用一种双线性低秩逼近方法压缩原始数据,从而达到提高运算速度的目的。通过实验证明,上述提到的算法都优于原有的LSDA算法。