流形学习与半监督学习在特征抽取中的应用研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:jiguso198735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸识别已成为机器学习、模式识别和机器视觉等研究领域的热点问题,在商业、公安系统等领域中更有着广泛的应用。特征抽取一直是人脸识别研究的一个基本问题,如何从高维数据中找到一个有意义的更低维表示是特征抽取的关键所在。近年来的研究表明,旨在保留原始数据中的内在局部邻域信息的流形学习方法适于处理人脸这类非线性结构数据,同时一些利用大量无类别标签样本和少量有类别标签样本来提升学习性能的半监督学习引起了广泛关注。但是这些算法在实际应用中仍然存在诸多不足。本文在深入研究流形学习和半监督学习的基础上提出了一些改进算法,并在一些通用人脸图像数据库中验证了算法的有效性,同时设计并实现了人脸识别原型系统,将现有的图像处理算法即经典的人脸识别算法应用于实际中。本文主要工作包括以下五个方面:1、核监督鉴别投影分析(Kernel Supervised Discriminant Projection Analysis)核方法(Kernel Method)通过非线性映射使得原始空间中非线性可分的数据在特征空间中尽可能地线性可分,然而它没有完全考虑数据集的局部性质同时其所带来的计算复杂性仍然是一个问题。无监督鉴别投影(Unsupervised Discriminant Projection, UDP)这一流形学习算法有效地利用了数据集的局部和非局部性质,但是本质上没有利用样本数据的类别信息。为了解决核方法和无监督鉴别投影(UDP)存在的问题,提出了一种核监督鉴别投影分析方法。该方法首先将训练样本通过一个核函数非线性映射到高维特征空间,在该特征空间中考虑了数据的局部和非局部性质以及类别信息。因此,该方法不仅保留了数据的局部邻域信息,而且能够抽取更有利于分类的非线性鉴别特征。在Yale人脸数据库上的实验验证了该算法的有效性。2、基于局部和非局部均值的无监督鉴别分析(Unsupervised Discriminant Analysis Based on the Local and Non-local Mean)考虑到无监督鉴别投影(UDP)很容易受到离群点的影响,同时无监督鉴别投影(UDP)的计算时间较长。提出了一种基于局部和非局部均值的无监督鉴别分析特征抽取方法,该方法利用局部和非局部均值来构造局部和非局部散度,从而在某种程度上克服了离群点所带来的鉴别困难。此外,与无监督鉴别投影相比,该方法的计算时间也有提高。在Yale、ORL(?)口AR人脸数据库上的实验验证了算法的有效性。3、基于局部均值的广义散度差无监督鉴别分析(Local Mean Based Generalized Scatter Difference Unsupervised Discriminant Analysis)无监督鉴别投影(UDP)考虑了数据集的局部和非局部特征,但是在人脸识别应用中不可避免地会出现“高维小样本问题”。由于最大散度差鉴别准则是对Fisher鉴别准则的改进,从理论上消除了“高维小样本问题”。因此提出了一种基于局部均值的广义散度差无监督鉴别分析方法,该方法利用局部和非局部均值构造局部和非局部散度,再利用样本的非局部均值散度与C倍的局部均值散度之差作为鉴别函数准则,不仅保留了样本分布的局部信息,而且从本质上克服了“高维小样本问题”。在Yale和FERET人脸数据库上的实验结果验证了该算法的有效性。4、基于马氏距离的半监督鉴别分析(Mahalanobis Distance-based Semi-supervised Discriminant Analysis)针对人脸识别应用中人脸样本的类别信息不足以及人脸样本特征间存在相关性的问题,提出了一种基于马氏距离的半监督鉴别分析。该方法在图嵌入框架下利用马氏距离对数据集中带有类别信息的样本进行边界Fisher分析(Marginal Fisher Analysis, MFA),不仅保持了类内的紧密性和类间的分离性,而且能够抽取出有利于分类的鉴别特征,同时将不带类别信息的样本用于描述数据集的几何结构,保留了样本间的局部邻域信息。与传统的特征抽取方法相比,该方法有较好的识别性能,在ORL、Yale(?)口AR人脸数据库上的实验验证了该方法的有效性。5、局部相关性的半监督鉴别分析(Local Correlation Semi-supervised Discriminant Analysis)线性鉴别分析(Linear Discriminant Analysis, LDA)是一类有监督的线性特征抽取算法,由于利用了数据集中的类别信息,因此有较好的分类效果。边界Fisher分析(MFA)是基于流形学习的有监督特征抽取算法,通过构造类内近邻图和类间近邻图,以达到同类样本尽可能地内聚,不同类样本分离。但是随着数据集中带类别信息样本的数量减少,LDA和MFA的性能将会降低,同时传统的欧式距离难以描述样本间的相似性。因此提出了一种局部相关性的半监督鉴别分析,该方法根据样本间的相似性构造类内相似性图和类间相似性图,然后建立新的鉴别准则用以分离每一样本点邻域内K1个相似性最小的同类样本和K2个相似性最大的不同类样本,同时拓展到半监督学习中。ORL和AR人脸数据库上的实验验证了本算法的有效性。
其他文献
跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度
计算机视觉的不断发展使得人们对视觉应用的实时性要求越来越高,传统单核平台上的串行应用程序已不能满足人们的要求,多核平台的出现为该问题的解决带来了新的突破口,多核平
在现实世界中,存在着大量的含糊、不确定、不完全和模糊的信息。如何精确描述这些信息是科学研究中很重要的问题。当前,处理模糊信息的方法主要是建立在Zadeh提出的Fuzzy集的
互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问
随着现代数字化、信息化和网络化的普及,如何确保存储涉密介质如移动硬盘、优盘、笔记本电脑和密级文件的安全,已成为保密设备控制应用中重要的研究问题。为了提高保密设备的
随着我国社会经济迅猛发展,大气污染问题愈加严重,引起了政府、学者和民众的广泛关注。为了更好地反映大气污染变化趋势,加强大气污染防治,研究污染物的预测方法就显得意义重大。
大型搜索引擎系统每秒钟都在响应着大量的用户请求。这些查询请求希望从上百亿张网页中检索出最相关的网页集合。随着互联网业务的迅猛发展,搜索引擎系统检索的信息量和承担的
近年来,随着人脸识别技术日趋成熟,已经逐渐应用于人们的日常生活中?作为人脸识别的前期阶段,人脸检测一定程度上影响着人脸识别的速度和识别率?因此,研究人脸检测算法,提高
城市地下水资源是我国水资源的重要组成部分,是促进我国城市经济发展的重要物质基础。但长期以来对地下水盲目过度的开采已导致某些地区地面下沉、海水倒灌甚至深层地下水污染
人脸图像分析作为计算机视觉领域中一个有着广泛应用前景的研究方法,吸引了越来越多人的研究兴趣。本文我们将针对人脸图像分析中的严重遮挡的人脸定位、基于人脸的亲属识别