基于相对变换的非线性降维研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:skyman9907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,数据集增长和更新更快、数据维度更高、非结构化性更突出。面对大量真实的高维数据,人们渴求通过有效的降维而在低维很好的处理利用,如分类、基于内容检索、模式识别和可视化应用等。   2000年《Science》同一期上的两篇文章分别提出了等距映射(Isomap)和局部线性嵌入(LLE)算法掀起了新‘轮的流形学习和非线性降维研究热潮,它们都利用了近邻信息来保留高维流形的内在几何性质并把它在低维空间重构,近邻的选择在这些算法中起着非常重要的作用。然而,这些方法通常都在原空间根据现有的欧式度量直接选择近邻,在遇到样本稀疏和噪音的情况下,由于近邻选择存在的不正确将造成后面在计算和保存流形内在结构信息时出现严重偏差,从而导致降维结果不理想或失败。   本文试图把每一个样本点变换到一个新的度量意义下的相对空间中的点,使这种样本点及其内在的近邻能够在相对空间仍然为近邻,而那些由于噪音或稀疏原因在原空间计算为近邻的点在相对空间它们则变的比较远。这样,在相对空间中,可以选择出它内在的近邻,从而可以获得在原空间中样本点的真实的近邻信息。本文在构造合适这种近邻关系变化的相对空间时,利用自身高维空间样本的所有点或部分点,用常用的距离(相异度)来描述任意一点和其它各点的关系。当有两点在欧式或测地意义下到其它各样本点的距离都比较近的时候,实际上可以认为它们在这个样本集中具有内在的近邻关系。本文就是通过构造这样一种用它到其它点的距离来决定它在相对空间中的位置的方式把所有点转变到相对空间的,在相对空间能够更真实的判断它们内在的近邻关系。本文称这种变换为相对变换,形成的空间为相对空间。本文在对Isomap试验中把样本点变换到相对空间,在相对空间选择真实的近邻后,再用原Isomap在原空间使用对应的近邻进行余下步骤的处理,发现降维有更好的效果,尤其对数据有很好的抗稀疏和噪音能力。此外,本文提出了一种新的降维误差分析方法--近邻保持度的定义,它相比目前的残差分析有着更直观、与样本数和算法类型无关等优点。   文章最后做了总结并提出进一步研究的方向。
其他文献
随着我国经济的发展,人们越来要求更高质量的医疗服务,但我国是一个人口多,人均医疗资源相对较少的发展中国家。为了解决这一矛盾现象,借助远程通信技术和信息处理技术减少因地域
随着Internet在世界各地的迅速普及和飞速发展,网络服务器的负载越来越重,集群系统应用越来越广泛。例如越来越多的企业将他们与顾客和业务伙伴之间的联络搬到互联网上;随着Web2
针对目前交通运输领域出现的交通拥挤、交通堵塞、交通事故和交通污染等问题,人们提出了很多解决方案,其中,智能交通系统(ITS)越来越受到重视,已经成为目前公认的最佳解决途径。而
本文以某日资公司三家汽车配件生产厂商的收益计划系统开发为研究背景,分析并解决了三家公司编制预算时存在的问题,提升了其预算管理的信息化水平,为指导中小型企业设计方便、有
网格是采用标准的、开放的、通用的协议和接口来协作分布式资源提供最好的服务质量的系统。虽然经过二十多年的研究和发展,网格计算技术取得了一系列重大的突破,但是对它的许多
随着宽带多媒体网络技术的不断发展,各种宽带网络应用层出不穷,如IPTV、多媒体视频会议、在线网络游戏、远程教学、计费视频点播等。这些应用通常采用一对多或者多对多的传输方
RFID已广泛的应用于企业信息自动化中,随着应用不断深入,所涉及的业务过程和所依赖的应用框架技术也更加复杂,业务逻辑的变化更显频繁,但传统意义上的RFID中间件对上层应用的支持
网格作为一种建立在互联网之上的新一代基础设施,在国内外的学术界和工业界都引起了广泛的关注。目前以网格为基础的分布式应用已经遍布商务、政务和科学活动等各个领域。随着