论文部分内容阅读
在模式识别领域中,如何利用已有样本进行训练并提取特征,使各类样本具有异于它类样本的特征成为迫切需要解决的问题。目前虽有许多成熟的特征提取方法,但在某些情况下这些方法的性能并不理想,有改进的必要。根据样本的类别个数,可以把模式识别分为两种:两类样本问题和多类样本问题。基于核的最小平方误差方法(KMSE)和Fisher判别分析方法(FDA)分别广泛应用于这两种问题的特征提取过程中。本文对这两种方法进行了分析和研究,并对它们进行了相应的改进。我们通过分析KMSE模型的结构得知此模型不具有唯一解。为了从KMSE模型的解空间中选择最优解,我们引入了一个衡量解向量优劣的准则。此准则不仅能够近似的说明通过KMSE提取到特征的可分性,而且不受解向量模的影响。利用引入的准则作为限制条件,我们给出了一种新的KMSE模型求解方案,并通过在Essex人脸数据库上的实验进行验证。KMSE模型的另一个缺点是特征提取效率与训练样本的个数成反比。在得到一个样本的特征提取结果之前,KMSE模型必须计算与所有训练样本同等个数的核函数。为了提高特征提取效率,基于判别向量可以由一部分关键样本线性表示的假设,我们构造了改进的KMSE模型。在此模型中,我们只需计算与关键样本相同个数的核函数即可完成特征提取。而关键样本只占训练样本的很少一部分,因此改进的KMSE模型具有较高的特征提取效率。我们为此模型设计了两个算法,并通过六个样本集上的实验验证了它们的有效性。除了应用于两类样本问题的KMSE模型,我们还分析了能够有效的对多类样本进行降维的FDA方法。已有的FDA方法要么忽略了判别向量之间的相关性,要么具有较高的计算复杂度。本文提出了一种能够快速计算正交判别向量的方法,并设计了两个算法来实现这一方法。在类内散布矩阵可逆的情况下,通过此方法计算得到的判别向量是相互正交的,文中利用定理证明了这一结论。我们通过人脸识别实验、手写体数学识别实验以及七个UCI数据集上的实验验证文中提出方法的有效性。