论文部分内容阅读
特征降维和模式分类是模式识别研究的重要内容。目前,特征降维和模式分类方法受到广大学者的关注。特别是近年来核方法的快速发展,使传统方法的适用范围进一步扩大并形成了众多研究成果,广泛应用于数据挖掘、图像处理、语音识别、指纹识别、医疗诊断等领域。尽管如此,但上述方法在一定程度上仍面临鲁棒性不高、泛化能力不强等问题。针对上述问题,本课题进行了相关研究,具体研究内容如下:1、针对线性判别分析算法面临的秩限制和小样本问题,提出几种改进算法:基于多阶矩阵组合的线性判别分析算法MLDA引入多阶矩阵组合的概念,重新定义了传统LDA中的类内离散度矩阵,使传统Fisher准则具有更好的健壮性和适应性;标量化的线性判别分析算法SLDA将类内离散度矩阵和类间离散度矩阵进行标量化处理,通过求解样本各维的权值达到特征降维的目的;基于矩阵指数的线性判别分析算法MELDA在矩阵指数的基础上,重新定义了类内离散度矩阵和类间离散度矩阵,可有效地同时提取类内离散度矩阵零空间和非零空间中的信息。此外,还从理论上对《核选择和非线性特征提取的双线性分析》一文提出的FKA算法的迭代收敛性进行了分析和探讨,并运用Radermacher复杂性分析法进行了证明。2、当前主流特征提取方法大致有两种研究思路:(1)从高维数据的几何性质出发,根据某种寻优准则得到基于原始空间特征的一组特征数更少的新特征;(2)从降维误差角度出发,保证降维前后数据所呈现的某种偏差达到最小。本课题试图从降维过程中数据分布特征的变化入手,基于广泛使用的Parzen窗核密度估计方法,来审视和揭示Parzen窗估计与典型特征提取方法LPP、LDA和PCA之间的关系,从而说明这些特征提取方法可统一在Parzen窗框架下进行研究,为特征提取方法的研究提供了一个新的视角。3、基于边界的分类方法中,超平面、超(椭)球等几何形状运用较为广泛。空间几何另一重要组成部分——点能否作为分类依据值得研究。受空间几何知识和光学领域光束角启发,提出基于光束角思想的最大间隔学习机BAMLM。从光学角度BAMLM可理解为在样本空间中寻找一个“光源”分别照射两类样本,根据照射区域的不同对样本进行分类;从空间几何角度BAMLM可理解为在样本空间内寻找一个分类点,通过计算样本与分类点间的夹角来判断样本类属。分析表明BAMLM的核化形式等价于核化CCMEB,通过引入核心向量机将BAMLM扩展为BACVM,有效地解决了大规模样本的分类问题。然而当训练样本中含有噪声点和孤立点时,上述方法的分类性能受到很大影响。鉴于此,提出基于空间点的最大间隔模糊分类器MFC。该方法引入模糊技术保证MFC分类时对样本区别对待,减小或消除奇异点的影响,有效提高了分类效率。4、针对核SVM存在的信息泄露问题和大规模数据分类问题,提出面向大规模数据的隐私保护学习机PPLM和基于分类超平面的非线性集成学习机NALM。PPLM首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。该方法有效解决大规模数据分类问题,并保证分类过程隐私安全。NALM首先将数据集分成若干数据子集,然后分别在各数据子集上运行分类超平面SH,最后将各子集上的分类结果进行集成得到最终的分类结果。该方法不仅继承了SH的优点,而且还将SH的适用范围从小规模数据扩展到中大规模数据,从线性空间推广到Hilbert核空间。5、以SVM及其变种为代表的大间隔分类方法在实际应用中取得了较好的效果,但该方法易受到输入数据仿射或伸缩等变换的干扰,其原因在于这些方法只考虑数据类间的绝对间隔而忽视了类内数据的分布性状。针对大间隔分类方法的不足,提出基于核密度估计与熵理论的最大间隔学习机MEKLM。该方法用核密度估计表征样本的分布特征,用熵表征分类的不确定性。MEKLM可以真实反映类间数据的边界信息和类内数据的分布特征,同时解决二分类问题和单类问题,且分类性能优良。