基于子空间分解和核空间映射的特征提取方法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:soochow_deer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界的复杂性使人们需要能够从表面的现象中提取出事物的本来特征,从大量冗余的信息中提取真正有用的信息,从不同种类的对象中提取最能够体现不同类事物之间区别的特征,这就是特征提取在模式识别、机器学习和数据挖掘等学科中所扮演的角色。传统意义上的特征提取的方法主要集中在降低特征的维数,即舍弃不能够体现样本之间区别的成分。 本文讨论的子空间分解方法在其基础之上用两个子空间的和来代替原有的高维空间,一方面保留了最能够体现样本差别的成分,另一方面对噪声空间进行合理的估计,使噪声对分类的影响降至最小。主分量分析可以说与 K-L 变换有着相同的本质,都是源于解特征值方程Λ = ΦTΣΦ。其中Σ是全部数据的协方差矩阵,Λ为此矩阵的本征值对角阵,即Λ的主对角元素恰好为矩阵Σ的全部本征值。这是矩阵Φ相当于一个坐标变换矩阵,其作用在于去除了原特征向量的各个元素之间的相关性,从而达到去除冗余信息的目的。可以说 PCA 相当于部分的 K-L 变换,即只是保留较大的本征值所对应的本征向量,用于对原特征向量进行投影。原特征向量可以从投影后的特征向量恢复,投影向量彼此正交,而且投影之后得到的各个特征彼此无关。 通常,在得到被识别对象的某种特征之后,会定义一些基于距离的测度作为两种模式之间相似性的度量,如定义两幅图像 I1 和 I2 之间的相似度S(I1, I2) 为范数 I1 ? I2 的倒数。这种方法相当于传统的模板匹配。但是根据模式识别的维数灾难理论,当特征维数很大时,分类器的识别率将会下降。由 Pentland 和 Moghaddam 等提出的子空间分解理论认为,高维特征向量投影到低维特征空间所造成的重建误差或称特征空间外距离(DFFS),实际上可以看作类条件概率在原空间的边缘概率分布的一种估计。而要估计原空间中所有特征的联合概率密度,必须引入特征空间内距离(DIFS),即用 DFFS和 DIFS 的和来表征 p(x ω)。子空间分解利用了图像中每个象素的信息,因 I<WP=84>吉林大学硕士学位论文此能够捕捉二维图像模式(如人脸)的细微变化,对于目标边缘不清,目标背景不易区分的情况也有很好的分类能力。一个空间(DIFS)包括绝大部分的训练样本,另一个空间(DEFS)几乎不包含样本。这样通过计算某个特征向量在DIFS 空间的投影距离训练样本中心的距离,以及原向量到其投影的距离,用来代替原有的直线距离。前一个距离可以通过传统的子空间分解方法得到,后一个距离由于其在识别中的作用较小,可以进行合理的估计。 由于线性判别式分析核主成分分析在特征提取,降维等领域的广泛应用,许多学者对这两种方法进行了有益的扩展。本质上说,PCA 能够找到这样一个低维的子空间:在这个子空间里特征之间的方差达到最大,同时重建误差达到最小。但是由于 PCA 把所有的样本都假定为属于同一类,故没有用到样本的类别信息,由此导致的结果是一些由噪声引起的方差也被保留了下来,而这并不是我们所期望的。线性判别式则构造这样一个低维子空间:在该空间中类间距离和类内距离的比值达到最大。因此,PCA 与 LDA 的一个区别在于前者的投影矩阵是正交的而后者不是。为了得到正交的 LDA 投影向量,Guo 提出一种迭代的方法,可以逐步求解出彼此两两正交的投影基向量。尽管如此,线性判别式分析方法在非线性问题面前仍然无能为力。然而物理世界中绝大部分识别与分类问题都是非线性的。既然在支持向量机(SVM)模型中,核空间映射的方法可以成功的把非线性问题转化为线性问题,那么能否在其他算法中也同样嵌入核空间的方法呢?对此进行的一些有益的探索表明这是可行的,即如果首先把原空间中的样本通过某种定义的核映射,投影到一个高维的空间(也许是一个维数为无穷大的空间,但是这并不妨碍问题的求解),然后在这个高维的空间中进行类似于 Guo 的迭代判别式分析,这样虽然在高维特征空间中处理的是线性问题,但是相当与间接地解决了原空间中的非线性问题。 支持向量机自从九十年代中期以来在机器学习和模式识别领域获得了巨大的成功,部分的得益于其构造的核空间及其核函数。本文利用 SVM 的核空间概念,提出了迭代线性判别式分析方法在核空间上的扩展。与通常特征提取方法尽量降低特征维数的做法相反,核空间构造了一个维数远大于原空间的特征空间,在此空间里原来的非线性问题可以转化为线性问题并顺利的解决。理论上说,任何空间中的任何非线性平面都可以转换成另一个更高维空间中的线性平面。实际上,由于高维空间的维数常常超出了可以计算的范 II<WP=85>吉林大学硕士学位论文围,这种显式的映射并不具有多大意义。核映射的方法试图把例如 PCA 或者LDA 中所有关于样本统计量的表达式转化成只含有点积的表达形式。这样,如果要计算高维特征空间中样本的各种统计量,只要知道样本之间的点积即可。而高维空间样本之间的点积正是原空间中对样本进行核函数运算的结果。这样,任何一种特征提取算法只要能够表示成点积运?
其他文献
碳纤维复合材料风扇叶片榫头段是铺层数量最多、递减铺层最集中的部位,榫头的铺层质量影响叶片的低周疲劳强度.为完成叶片榫头段的铺层设计,基于铺层设计准则,建立了一种适用
一、课题意义外围驱动电路系统和驱动芯片的设计是OLED显示技术发展中不可或缺的重要环节,这不仅是因为试验必须消耗大量的财力、物力、人力和时间,更重要的是OLED的生产的质量
在黄土高原子午岭次生林区,对山杨林、辽东栎林、山杨-辽东栎混交林三种林地的土壤物理特性、细根分布特征、植物多样性及叶片光合生理生态特性等进行了研究,结果表明:(1)山
作为先进的第三代同步辐射光源设施,上海光源在我国基础科学和高新技术前沿领域的研究上发挥着极其重要的作用。继2009年建成的首批7条光束线站之后,2014年完成了梦之线及蛋白
运动目标跟踪是计算机视觉领域非常活跃的一个课题,而且有着非常广泛的应用,例如视频会议、机器人导航、虚拟现实等等。在会议电视系统中,大多数都装有可控制摄像机,对发言人的运
随着卫星导航技术的发展,导航接收机在复杂环境下的应用越来越广。在GNSS接收机中,跟踪环路是数字基带信号处理的核心环节,对接收机的定位精度等性能起着决定性作用。因此,本文开
该论文主要研究了基于OFDM的高速无线Internet中物理层、数据链路层、传输层的若干关键技术,重点是对无线衰落信道中高突发差错引起的分组丢失对TCP/RLP性能的影响进行理论研
以环氧树脂为基体,短切玻璃纤维和玻璃纤维布为增强材料,通过RTM工艺制备了玻璃纤维增强环氧树脂(GF/EP)复合材料,并研究了RTM工艺制备玻璃纤维布增强环氧树脂(L-GF/EP)和短
差分跳频系统以数字信号处理技术为基础,采用差分跳频、异步跳频、宽带接收等多项先进技术,可以在短波波段实现宽频带、高速率的跳频,极大地提高了短波电台的抗跟踪干扰、抗多径
针对传统个人软件程序设计偏重单线程的缺点,通过研究当前流行的几种嵌入式系统,提出了一种简单的针对个人的微型嵌入式系统的结构和部分外围构件设计。系统主要包括任务间的通