流形学习的邻域选择和增量算法研究

来源 :山西大学 | 被引量 : 7次 | 上传用户:fq8628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,真实世界中数据的规模也在以几何级的速度增长,出现了大量的高维数据,这些数据具有高维稀疏性。数据的这种高维稀疏性给现代数据分析与处理带来巨大挑战。数据降维是许多高维数据分析任务的预处理阶段之一,然而随着维数的不断膨胀,传统的线性数据降维方法已不能满足需求,需要找到新的降低数据维数的方法。流形学习就是一种新的非线性降维技术,即通过分析高维观测空间中样本集的外在特性来发掘隐藏在其中的本质结构,从而得到有用的信息,它已经成为大规模海量高维数据预处理的关键技术。近年来,基于不同理论和方法的流形学习算法已经取得了较好的研究成果,能更好地挖掘隐藏在高维数据中的低维流形结构。然而,流形学习的这些算法仍然存在一些问题,如根据流形结构自适应地构建邻域关系图直接关系到流形低维本征结构的有效重构;基于矩阵谱分解的方法不能得到数据集从原采样空间到本征结构空间对应的显式映射函数,对不断增加的新采样点得到其低维嵌入值是困难的。这些流形学习领域中的重要问题,理论上和应用上都值得关注。本文就这两个问题展开了研究,具体贡献如下:(1)针对传统邻域选择方法不能根据流形样本密度和弯曲度合理选择邻域的缺点,提出了一种有序自适应的邻域选择算法。该算法从流形上曲率最小的点开始,以宽度优先的次序不断地处理每个点。根据流形结构的局部线性特性,利用已有的邻域信息增量地对搜索到的数据点选择合适的邻域。实验结果表明:该方法应用于Isomap后,对不同结构的数据集嵌入结果更加准确。(2)基于人的认知,提出了一种保持局部邻域关系的增量Hessian LLE(LIHLLE)算法,该方法通过保证流形新增样本点在原空间和嵌入空间局部邻域的线性关系不变,用其已有邻域点的低维坐标线性表示新增样本点,得到新增点的低维嵌入,实现了增量学习。在Swiss roll with hole和frey_rawface数据集上的实验表明本文提出的方法简便、有效可行。(3)基于Isomap算法全局保距的思想,提出了局部保距的增量Isomap算法(LI-Isomap),该算法通过保证新增点在各个邻域方向的径向距离不变,最小化新增点与邻域点间夹角在原空间和嵌入空间的差来实现增量学习,给出了目标函数,通过解最优化问题得到新增点的低维嵌入,在Swiss roll和frey_rawface数据集上的实验表明该方法合理高效。总之,本研究通过对不同流形结构的探讨,提出了一种普适性较强的自适应邻域选择算法,为大多数流形学习算法提供参考和技术支持;对已有的一些流形学习算法进行扩展,提出了对应的增量流形学习算法,增强了流形学习算法的学习能力,使其适用范围更广
其他文献
目前,世界石油开采储量的增加,75%以上来自对已开发油藏的技术挖潜,仅有不到25%来自新油田的发现。在一般情况下,人们仅仅采出原油总储量的30%左右,因此,剩余油开采对于增加可采储量及
结构化方法是系统分析和设计时常用的方法.该文结合软件工程的知识与房产管理部门的实际情况,利用结构化方法分析和设计了一个房产管理信息系统,对房产管理信息系统的设计开
证券市场自2002年以来发生了很大的变化,最明显的特征就是市场竞争日益加剧;外资证券机构的进入带来很大的挑战,同时内资机构的竞争也空前激烈。这一形势逼迫内资机构考虑全方位
以Java applet为代表的移动代码的普及给传统的计算机网络安全技术带来了严峻的挑战。基于沙盒(Sandbox)模型的Java安全机制从理论上可以保护主机不受恶意Java applet的破坏,
本文介绍了辽宁投资项目决策支持系统LNIPDSS(LiaoningInvestmentProjectDecisionSupportSystem),它是把决策支持系统技术、面向对象技术、数据仓库技术、计算机技术综合应用
随着软件业的发展,人们已经意识到软件过程是软件工程的一个重要基础,高质量软件的生产越来越依赖于软件组织在生产中是否采用了适当的软件过程,以及在组织内部是否不断地改
长期以来,网络上存在着大量异构的数据库,它们的异构性表现在多个方面,如数据的类型不同,数据的表示不同,管理数据的软件不同,以及系统运行的环境不同。随着企业合作和政务电子化的
本文在自主开发的多级安全空间数据库管理系统SecVISTA之上,针对存储隐通道和时间隐通道两大类,分别设计并实现了不同的隐通道消除模块。文章基于多实例、大容量缓冲和泵协议等
本论文系统地描述了具有入侵检测功能的防火墙的实现方法,实现成果和结论。对于在防火墙层次实现网络入侵的过滤,在现存的技术手段和科学研究的基础上,已经可以比较容易地实现一
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式