流形学习及其在模式识别中的应用

被引量 : 28次 | 上传用户:zhoudeyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据的采集工作变得越来越容易。然而数据的海量性、高维性和分布的非线性特性却使人们感到越来越难以对其进行驾驭和处理。一方面我们可以获取的数据量变得越来越大;而另一方面,我们却难以找到所需的信息。在此背景下,流形学习应运而生,并为越来越多的研究者所关注。而其目标是解决高维数据分析中数据分布非线性所带来的难题,探索高维非线性数据集中的真实分布几何。本论文面向模式识别来研究流形学习,其目的在于促进流形学习在模式识别中的成功应用。论文的主要工作大体上可以分为三个部分:构造非线性等距映射关系(即微分同胚),探讨数据集的内蕴几何(包括内蕴维数、非线性特性、内蕴几何模型),计算审美的初步探索。具体来讲,本文的主要创新性工作包括:1、提出具有显式等距映射的ISOMAP算法。针对原ISOMAP算法缺少从高维空间到低维空间显式映射关系的不足,基于迭代优化设计出E-ISOMAP算法,并给出其监督版本SE-ISOMAP算法。由于显式等距映射的存在,E-ISOMAP和SE-ISOMAP可以用于基于测地线距离的非线性特征抽取。2、提出采用“分两步走”的方式来解决ISOMAP算法中非线性等距映射的构造问题。在学习参数化的测地线距离函数和构造距离保持映射的基础上,实现了ISOMAP算法中从高维空间到低维空间的非线性等距映射的显式构造,可以用于基于测地线距离的非线性特征提取。3、展开对非负局部线性重构系数的实验研究,探讨它在内蕴维数估计和在发掘数据集内精细类别子结构方面的可能应用。实验表明:在噪声较小、内蕴维数较低的情况下,显著非负局部线性重构系数的数目和分布可以指示出数据集的内蕴维数;非负局部线性重构系数的分布能够指示出数据集内的精细类别子结构,可以用于对邻域关系图的剪枝,以提高基于测地线距离的半监督分类的识别精度。4、针对某些存在多个类别的数据集,提出主纤维丛(PrincipalFiber Bundle:PFB)模型假设。在主纤维丛假设下,提出基于双重邻域关系图的“丛流形学习”(Bundle Manifold Learning:BML)算法,用来发现数据集中潜在的精细子结构。在基准数据库上的实验表明:BML算法能够发现多类别数据集中的精细子结构,而现有的其他流形学习算法都不能。5、提出计算审美的研究任务,结合HCL2000数据库完成美观度标注数据集,利用数据可视化技术给出对美观度标注结果的初步分析,为计算审美研究的深入开展提供依据。
其他文献
在去噪度、语音畸变度以及“残留音乐”噪声之间取得良好的折中一直是语音增强系统需要解决的问题,近年来出现了多种语音增强算法及其改进形式都对这一问题了研究。但到目前
<正>一、常住人口中户籍地与实际居住地一致的重点人口,实行"1+5"工作法"1"是指人户一致的重点人口。民警通过入户调查,了解重点人口基本情况,包括其自然情况、家庭情况、社
中国兰花是我国传统名花,对我国的传统文化发展也有着深刻影响,在我国和亚洲各地深受人们喜爱。国兰栽培历史悠久,但是目前在生产中存在突出问题,大量挖掘野生兰花导致资源严
<正>2009年,滦平县进行学区建设,我校生源发生了根本性变化。学生有三分之一来自县城小学,三分之二来自农村小学,学习习惯、学习成绩差距很大,给教师的课堂教学带来了很大困
<正>一、试题基本结构、内容、主要特点及简析总体看,2012年高考文综地理试题较2011年略易。试题设计依据考试大纲,紧扣课程标准要求,不偏不怪、平和稳重、内涵丰富,秉承与延
本文通过分析城市化与非农产业,即第二、第三产业发展(后简称产业发展)之间的相互关系,建立了我国城市化发展和产业发展偏差水平测量模型,并以此为分析框架,判断城市化发展是
原告资格问题是我国行政诉讼法学理论尚存争议、司法实践把握不一的问题。1999年通过的《最高人民法院关于执行<中华人民共和国行政诉讼法>若干问题的解释》第十二条规定“与
现代企业的发展过程中,在面临着内部管理风险的同时,也面临着外部市场环境的激烈竞争.企业为了提升自己的综合实力,就需要充分运用全面风险的管理理念,重视企业的内部控制工
第十二届全国美展实验艺术展注定将被写入历史。几经周折,学院终将实验艺术纳入教学体系,全国美展举办实验艺术展是对高校教学的认可。本次展览从总体上呈现出理性、冷静的学
<正>校长是学校教育的舵手,是学校文化的引领者和教育思想的践行者。校长应善于把学校文化和教育思想体现在办学的各项工作和活动中。办学实践表明:一个有思想和文化品位的校