流形学习理论与方法及其应用研究

被引量 : 0次 | 上传用户:xiaoxie20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘、模式识别和计算机视觉的很多实际问题中,数据都呈现出高维数的特点。数据的高维性掩盖了数据的本质特征。因此,对高维数据进行降维,将其用简洁的低维数据表示,从而提取隐藏在高维表象下有用的和感兴趣的知识显得尤为重要。大体上讲,高维数据的降维技术可以分为线性降维和非线性降维。线性降维技术提出较早,发展较为成熟,但是由于其在实际应用中的诸多限制和不足,非线性降维技术逐渐成为当前研究的热点和主流方法。作为非线性降维技术的一种,基于全新流形假设的流形学习技术,由于具有认知上的理论支持,近年来格外受到研究者的关注。正是在这一背景下,本文坚持面向应用,针对现有流形学习研究的不足,展开研究工作。本文的主要工作和所取得的创新如下:1、针对现有算法对邻域大小参数敏感的问题,提出了一种自适应的邻域选择算法。现有流形学习算法大多依据流形的局部光滑特性,采用局部线性拟合来挖掘个数据的流形结构。这些方法都涉及到局部邻域构建的问题,且都对邻域大小参数比较敏感。考虑到流形学习算法构建邻域的目的,即采用线性拟合来逼近所构建的局部邻域样本集,本文提出了基于局部线性结构的邻域选择算法。该算法在保证所构建局部邻域具有线性结构的前提下,能依据流形在各局部的几何结构,自适应地确定邻域大小,从而保证所构建的邻域能真实地反映数据所在流形的局部几何结构,减小线性拟合误差,提高流形学习算法的性能。2、针对局部切空间对齐算法对噪声敏感问题,提出了一种对噪声健壮的流形学习算法。在实际应用问题中,采样数据往往存在噪声,从而破坏了数据的局部的平滑结构,使得采样数据偏离数据所在的低维流形。而现有的流形学习算法都是建立在严格的流形假设基础之上,因此噪声的存在将严重影响现有流形学习算法的性能。本文特别针对局部切空间对齐算法,深入地分析了噪声影响算法性能的机制,提出利用健壮PCA取代该算法中奇异值分解来计算数据的局部切空间坐标,并分别从三个方面改进该算法,使得在具有噪声的情况下,依旧能获取数据的真实流形结构,从而解决了局部切空间对齐算法对噪声敏感的问题。3、针对具有缺失像素的图像集,提出了一种学习其流形结构的流形学习算法。从目前的文献来看,尚未见关于从具有缺失属性的数据集中学习流形结构的方法。作为一种尝试,本文研究了如何学习具有缺失像素图像集的流形结构的问题。通过深入分析具有流形结构的图像集的特点,依据图像集中像素之间存在的强冗余性,提出了一种只利用已知像素进行图像主成分分析的EM-PCAM方法,然后将该方法无缝集成到局部切空间对齐算法中,使其具备学习其流形结构的能力,初步解决了具有缺失像素图像集的流形学习问题。该方法对进一步研究具有缺失属性数据集的流形学习问题具有一定的借鉴作用。4、结合对高维数据的聚类任务,提出了聚类保持的嵌入和非线性判别嵌入两种非线性降维方法。经典流形学习算法是一种无监督的学习方法,单纯地以挖掘数据集的内在非线性流形结构为目标,而实际应用中人们往往更关心对数据的聚类和分类等问题。因此本文研究了将高维数据的聚类和流形学习算法结合起来的问题,分别提出了CPE和NDECSR两种非线性降维技术。CPE方法试图在保持原始数据的聚类结构基础上来实现降维,具体则是通过保持健壮的基于路径的相似性来获取数据的非线性低维表示。而NDECSR方法通过引入谱正则化技术,能同时获取数据的低维坐标表示并实现对高维数据的聚类。5、针对人脸数据集的流形结构,提出了基于大间距判别准则和图像矩阵双向投影的人脸特征提取方法。近年来越来越多的研究表明人脸数据存在低维的流形结构。如何利用人脸的流形结构来提高人脸识别性能是一个有意义的研究问题。本文通过在计算散度矩阵时引入能刻画数据流形结构的Laplacian矩阵来达到利用人脸流形结构的目的。同时为尽量保持人脸图像的结构化信息,我们直接采用矩阵来表示图像并用矩阵的双向投影来实现特征提取。最后与传统的采用Fisher判别准则的方法不同,我们采用了大间距作为特征提取准则,从而保证了迭代求解过程的收敛性,解决了以往方法无收敛解的问题。
其他文献
介绍了硫回收过滤装置中真空过滤机和板框压滤机的结构特征及工作原理,通过分析硫回收效率低、回收质量差、熔硫时间长、熔出的硫磺质量差污染严重等原因,采用板框压滤机替代
目的探讨冠心丹参滴丸对高血压肾病患者保护肾功能、减少蛋白尿的有效性。方法通过回顾性分析,收集我院就诊的高血压肾病患者55例,随机分为2组,对照组采用饮食控制,卡托普利
本文综述了近年来国内外分析环境样品中的痕量镉的进展,包括分光光度法、原子吸收法、电化学分析法、ICP-AES法等并对测定痕量铜的发展趋势做出了预测。
残障人士是一个特殊的社会群体,是社会保障和公共服务的重点人群。图书馆作为知识传播和文化活动的中心,不仅是一种社会机构,也是一种社会保障体制,为残障人士服务、保障残障
在目前的电视节目之中,电视专题片是一种独特的艺术形式。伴随着音乐的主画面,并有专人讲解,在适当的时候表现和解释进行同期联合。对于电视专题片来说,配音解说是最最重要的
信息技术和互联网的飞速发展,使得从多个数据源得到的多种形态的数据不断地成指数级爆炸。如何对这些海量的复杂高维数据进行快速有效的处理、提取用户所需要的有价值信息是
2009年12月26日第十一届全国人大常委会第十二次会议通过并公布了《中华人民共和国侵权责任法》,该法于2010年7月1日起施行。该法第七章规定了医疗损害责任,以法律的形式规范
以超大规模集成电路芯片晶体管数量持续增长为物质基础,单芯片多核处理器以可扩展性好、设计复杂度低、性能功耗比高等优点,成为当前单芯片处理器体系结构发展的主流。单芯片
浸入式外语教学法自诞生以来,发展至今,得到了许多国家的认可。在国际化的今天,中国30余年来惯行的英语教学方式也在悄然经受着挑战。本文在理论和实验的基础上就浸入式教学
本文从翻译目的论的视角,以《卧虎藏龙》为例,探讨"冲奥"华语片字幕翻译的归化与异化,认为该片译者充分考虑到了导演意图以及目的语观众的心理期待,很好地实现了文化交流的目