流形学习的研究

来源 :企业技术开发·下半月 | 被引量 : 0次 | 上传用户:viclee0716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文章介绍了流形学习基本思想、目前的最新研究成果,同时,简要叙述了流形学习算法的概念。流形学习作为一种新兴的降维手段,其目的是发现嵌入在高维欧氏空间中的低维光滑流形数据结构,并给出有效的低维表示。目前,随着计算机信息网络的飞速发展,流形学习已成为模式识别、机器学习和数据挖掘等领域的热点研究项目。
  关键词:流形学习;模式识别;维数降维;机器学习
  中图分类號:TP18文献标识码:A文章编号:1006-8937(2011)08-0103-02
  
  人类社会已经迈入了信息时代,信息量,信息传播的速度,信息处理的速度以及应用信息的程度等都以几何级数的方式在增长, 在信息时代的科学研究过程中,不可避免的会遇到大量的高维数据,为了从海量的高维数据中获取低维流形结构数据,即找到高维空间中的低维流形,以实现维数的约简化或者数据的可视化。假设采样的数据是均匀位于一个高维欧氏空间中的低维流形,而我们所研究的流形学习就是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效低维表示。利用这种方法不但能够较好地处理由于海量高维数据所产生的“维数灾难”问题,而且可以从观测到的数据现象中去寻找事物的本质,解决信息资源巨大浪费与知识匮乏之间的矛盾,从而能够进一步得到产生数据的内在规律。
  1流形学习研究对数据降维的作用及意义
  随着科学技术的进步,尤其是现代信息产业的发展,把我们带入了一个崭新的信息时代。为了从海量的高维数据中获取低维流形结构数据,找到高维空间中的低维流形结构,以实现维数的约简化或者数据的可视化。在实际的应用中,从高维数据中采集的观测点可以通过相应映射模拟成可能带有噪音的低维非线性流形上的样本点或者逼近这些样本点的数据。因此,数据降维尤其是非线性降维已经成为了数据挖掘的一个较为重要的手段,而其中进行降维的目的是为了从高维空间中寻找出隐藏在其中的低维结构。 在近几年的研究中,非线性降维在机器学习、数据挖掘、计算机视觉和图像分析等许多研究领域都吸引了研究人员们的广泛关注。目前,在流形学习的研究中已经发展出了一些有效的算法来进行非线性降维。假设采样的数据是均匀位于一个高维欧氏空间中的低维流形,而我们所研究的流形学习就是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效低维表示。利用这种方法不但能够较好地处理由于海量高维数据所产生的“维数灾难”问题,而且可以从观测到的数据现象中去寻找事物的本质,解决信息资源巨大浪费与知识匮乏之间的矛盾,从而能够进一步得到产生数据的内在规律。
  流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的线性判别分析(LDA)和方法如主成分分析(PCA),非线行流形学习算法包括等距映射(Isomap)和拉普拉斯特征映射(LE)等。
  如何从大量的数据库中排除种种繁杂冗余的信息,从中提取有价值的信息,并且进一步提高信息的利用率和使用率,发现数据中存在的关系和规则,掌握现有数据预测未来发展趋势的能力。从几何学角度来看,这种嵌入在高维数据中的低维线性或非线性流行的维数约简,很好的保留了原始数据的基本几何性,就是说在高维空间中相邻的点在嵌入空间中也相邻。
  在目前的维数简约算法中,利用独立分量分析、主成分分析(PCA)等方法可以很好的处理高维数据集中具有线性结构和高斯分布的数据集,例如,主成分分析将方差的大小作为衡量信息量多少的标准,当方差越大时,提供的信息越多,方差越小时,提供的信息越小。在处理图像上,傅里叶变换将数据集变换到频域进行约简,小波变换增加时域信息。但是,当数据集在高维空间呈现高度扭曲,用以上方法处理高维非线性数据集并不能找到其真正的分布结构。而就现实中的实验数据来说,一般都是非线性数据,并且一般都是分布在高维空间中,所以流形学习提供了一种新的研究途径,一种非线性降维技术, 目的是寻找嵌入在高维数据中的低维流形结构, 这种嵌入方法保留了原始实验数据的几何特性, 即在高维空间中临近的点在嵌入空间中也相邻。低维空间中的特定的流形结构减少了数据空间变化的自由度, 这是是数据规律性的发现, 由此可以实现高维数据降维的目的。
  2流形学习的算法
  2.1流形学习的定义
  流形学习基本思想为:是一种新的机器学习方法,我们可以把高维观测空间中的点看作是由少数的、具有独立变量的、共同作用在观测样本空间的一个流形,为了把该数据集进行降维,需要通过某种算法,得到观测空间卷曲的流形或发现其内在的主要变量。
  2.2基于流形学习的方法——局部线性嵌入LLE
   (locally linear embedding)
  局部线性嵌入LLE算法的基本思想:局部线性嵌入算法是一种依赖于局部线性的流形算法,假定观测数据集位于一个高维空间的低维嵌入流形上, 并且嵌入空间与内在低维空间对应的局部邻域中数据点保持相同的局部近邻关系。
  2.3基于流形学习的方法——ISOMAP
  首先提出多维尺度变换 (MDS)这个概念。MDS 是一种非监督的维数约简方法,MDS的基本思想:约简后低维空间中任意两点间的距离应该与它们在原始空间中的距离相同。
  2.4拉普拉斯特征映射(Laplacian Eigenmap)
  基本思想:在高维空间中离得很近的点投影到低维空间中的象也应该离得很近,通过使用两点间的加权距离作为损失函数,可求得相应的降维结果。
  3结语
  流形学习的主要目的是找出嵌入在高维空间中的低维流形结构,这种算法作为一种新的数据降维方法,解决了降维的问题。
  
  参考文献:
  
  [1] 王自强,钱旭,孔敏.流形学习算法综述.计算机工程与应用, 2008,44(35).
  [2] 詹德川,周志华.基于集成的流形学习可视化[J].计算机研 究与发展,2005,42(9):1533-1537.
  [3] Roweis S,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500): 2323-2326.
  [4] 罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机 研究与发展,2006,43(7):1173-1179.
  [5] Seung H S,Lee D D.The manifold ways of perception [J]. Science,2000,290(5500):2268-2269.
其他文献
某小区位于无极县幸福街东、千山路北,工程包括11栋多层住宅楼及2栋高层住宅楼。文章在分析该建设小区场地工程地质条件的基础上,合理确定了岩土参数选定方法,并综合勘察报告相关结论对该场地进行了岩土工程分析评价,相关结论对类似工程具有一定借鉴意义。
摘要:伪随机码是扩频通信的关键,其中应用最为广泛的是m序列。构成m序列发生器需要判断本原多项式,文章提出了一种本原多项式验证模型,较传统方法更具有可操作性。  关键词:Simulink;m序列;本原多项式  中图分类号:TN929.53文献标识码:A文章编号:1006-8937(2011)08-0098-02    扩频通信由于其抗干扰、抗噪音、具有保密性、隐蔽性等一系列优点被广泛的运用于移动电话
通过对一次除尘滤袋灰堵的症状进行原因分析,采取相应措施,完善基础管理制度,为今后除尘系统的管理、运行操作、维护检修积累经验,提供参考。
一次光与空间的介入伊拉斯谟医学院学习中心作为伊拉斯谟医学院的教研区域,以一个通透的屋顶,营造了一个充满自然光的利于学习的大空间。在改造以前此空间位于室外三层。原建
当代建筑发展面临的最大挑战虽然中国在经济建设方面取得了巨大成就,但是我认为,在文化建设和发展方面甚至有些退步,有些看不清发展方向和目标。建筑学界的发展不可能脱离整个中
由《世界建筑》承办的“仲夏在北京小院儿”2016白塔寺国际方案征集活动·北京推广会在北京妙应寺白塔旁的宫门口菜市场举行(图2)。
围绕“野生华南虎”照片的相关新闻,霸占国内新闻媒体头条为期长达六十天之久。华南虎事件已经从单一的野生动物保护上升为全民积极性参与的“07新闻大事件”。
进入天大学习期间,中国建筑界较为重大的事件之一.便是贝聿铭先生设计香山饭店。1982年香山饭店落成之初,恰逢我国的改革开放时期,该建筑设计在当时引发了很长一段时间的争论,褒贬
摘要:文章介绍了自动电压控制(AVc)的原理和成都电网的电压、无功调节情况,以及Avc装置在成都电网中的实际应用情况。  关键词:Avc;电压调节;无功优化
“用最简洁、最概括的语言对新闻的主要内容进行总结、提示和评点的第一段话”就是导语。一条电视新闻能否以新鲜的.强烈的,集中的内涵刺激观众的注意心态.变无意注意为有意关注