基于数据局部结构信息的特征提取中的关键问题研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yongtso88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
很多现实世界中的应用,特别是在模式识别,机器学习,计算机视觉和数据挖掘领域中,都涉及到对高维数据的处理。特征提取和维数约简的方法因为能够找到数据最理想的低维表示而在这些领域中扮演了重要的角色。而在这些方法中,由于具有比其它方法更为显著的优势,线性特征提取方法成为了一种流行的维数约简的工具。最近几年,随着流形学习的发展,数据的局部结构由于隐含了数据的潜在信息引起了越来越多的注意。与全局维数约简方法不同,流形学习方法试图找到嵌入在数据输入空间的低维流形结构。传统的流形学习方法,如ISOMAP,LLE和Laplacian Eigenmaps,通过非监督学习的方式来寻求数据的低维流形。为了挖掘局部判别流形结构,局部判别分析方法在鉴别潜在子流形结构的同时引入了数据的判别信息。从数学的角度看,这些维数约简方法都可以统一用关系图嵌入框架来解释,所不同的只是它们中内在相似图和惩罚图的构造规则。然而,这些局部判别方法仍然存在一些缺陷,如维度灾难,增量学习等。另外,非负矩阵因子(Nonnegative Matrix Factorization, NMF)同样也是一种基于数据局部结构的数据挖掘方法,其等同于一个具有非负边界限制的优化问题。在已有的研究成果中,非负矩阵因子主要是通过添加额外的优化项来解决机器学习和计算机视觉中的一些应用问题。为了克服传统的相乘学习算法收敛速度过慢的问题,最近有一些研究者提出了基于投影梯度的非负矩阵因子算法。但是,碍于非负限制和额外添加的优化项,这些非负矩阵因子方法常常会遇到不恰当学习的问题。本文主要针对基于数据局部结构的特征提取方法的几个热点问题进行了深入地研究,主要的贡献如下:①针对维度灾难的问题,已有的局部判别方法使用主成分分析(Principal Component Analysis, PCA)方法来对数据进行预处理降维,但这有可能会破坏数据的局部结构。本文将判别嵌入考虑为一个在样本数据空间中的核处理过程,提出一种基于核框架的判别处理方法来提取嵌入特征。与其它方法相比,该方法避免了PCA的预处理,也不需要对数据进行裁剪操作。通过在一系列高维数据集上的实验表明,该方法具有较好的健壮性和杰出的性能优势。②尽管局部判别子空间方法在判别形式上与LDA具有一致性,但它们的理论性质却截然不同。本文以局部判别零空间为例,研究了局部判别子空间方法相关的计算和理论基础。首先,本文在零空间LDA的基础上提出局部判别零空间方法,并且论证它的计算复杂度主要是由关系图中连接边的数量决定的。这使得当需要处理的数据量较大时,算法无法顺利实施。为了解决这个问题,本文提出一种改进的局部零空间方法,该方法用惩罚子空间来近似完整的局部判别子空间以达到改进算法效率的目的。实验研究发现,该近似方法能够达到与原来的学习方法相近似的识别结果。③由于当有新增数据时,局部判别分析方法没有明确可用的更新规则,这使得为其设计增量学习方法非常困难。为了弥补这一缺陷,本文提出一种提取判别特征的监督学习方法,叫做局部判别子空间嵌入(local discriminant subspace embedding, LDSE)。然后,提出了其增量学习方法来寻求在存在新数据进入的情况下的判别子空间,该方法的主要思想是利用奇异值分解的更新算法来将基准方法扩展为可进行增量学习的方法。从人脸识别的实验来看,该增量学习方法能够在更小的计算开销下得到与基准嵌入方法相近的识别结果。④已有的边缘学习方法在判别边缘拥有最短的类间距离的理论前提下,试图在所有类间数据对中找到局部边缘。然而,该方法常常难以提供最佳的判别力,特别是在数据呈多模态分布的情况中。究其原因,是由于边缘学习方法使用有限的数据对来确定判别边缘,使得得到的边缘可能无法反映数据的真实的分布情况,使得在低维空间中投影得到的样本无法被正确分类。不失一般性,线性子空间学习算法也可以理解为在低维空间中对一系列数据对吸引和排斥关系的加强。基于这样的观点,提出一种边缘子空间学习方法,叫做边缘判别投影(marginal discriminant projections, MDP)。与已有的边缘学习方法不同,通过分层模糊聚类来自适应地确定局部判别边缘,同时递归目标优化过程也得以避免。⑤为了挖掘非负数据中的信息成分,提出了一种以信息理论学习相关的非负矩阵学习方法,并使用共轨梯度方法来加强递归学习过程。然而,与其它扩展的梯度非负矩阵因子算法一样,碍于非负边界限制,在递归过程中不可避免地会遇到不恰当学习的问题。为了解决这个问题,提出了一个改进的线性搜索方法,在保持目标函数下降的同时通过确认条件来避免得到零因子。另外,不同于其它梯度下降算法使用梯度终止条件,采用了对非负边界优化问题效率更高的数值终止条件。实验表明,该方法在非负图像数据集存在姿态和光照变化的条件下,比其它方法更有的优势。
其他文献
基于统计学习的模式识别方法是人工智能的一个重要研究领域。目前,统计模式识别已经得到了较深入的研究,一些相关技术成果已成功高效地应用于各种不同的领域。虽然如此,其中
数字技术的发展使得人们在享受数字化带来便利的同时,也深陷安全隐患之中。数字图像,作为多媒体形式的主要内容,其获取、修改、传输越来越容易,随之而来的数字图像的真实性、
对9目24科85种鸟舌的形态观察,可划分为矛尖型、圆钝型、棒状型和短阔型四种类型。发现鸱鹗科3属3种鸟类为圆钝型,佛法僧目翠鸟科和戴胜科4属4种鸟类为短阔型,啄木鸟科3属3种
随着我国经济社会的不断发展,我国的城市化进程也在不断的深入,建筑行业也因此得到了很大的发展,成为推动我国经济发展的支柱产业。然而在进行建筑工程施工的过程中,经常会发
<正>2018年,新能源汽车企业最重要的任务是交付,保证量产。"2017年,有点像黎明前的黑暗。"威马汽车创始人沈晖告诉《21CBR》记者。这一年,在新能源汽车领域里发生的事件令旁
在卓越计划及我校应用型人才培养转型背景下,根据计算机网络教学过程中存在的问题,结合学生对网络的认知情况,对计算机网络原理教学内容按应用型人才培养需求与学生认知进行模块
随着计算机技术的发展,图像处理问题在日常生活中扮演着越来越重要的角色.然而,由于图像在形成、传输、生成的过程中受外界因素的影响而导致质量的降低,因此有效地复原退化图
近年来,铁路系统安全事故频繁发生,一定程度上影响了铁路企业的发展和进步。机车是铁路运输生产中最重要的设备,因此,机车系统的安全管理是确保铁路运输生产安全的重要环节。
银行会计课程是金融管理类学生必修课程,是银行会计理论知识和银行会计综合专业技能相结合的课程。人才培养取决于教学方法和教学手段,影响教学方法和教学手段的因素有很多。