非线性降维技术的研究及其在数据可视化中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:InsidedotNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了数据可视化效果更加自然的位置可调SOM算法。自组织映射的迭代优化方法会使其陷入局部极值,进而降低数据可视化的质量,ISOMAP算法可用来对其进行指导以避免局部极值。此外,ISOMAP算法还能很好地对嵌入在高维欧氏空间中的低维非线性流形进行可视化。然而,ISOMAP算法对其参数——邻域大小比较敏感,进而在一定程度上是拓扑不稳定的,而邻域大小在实际中又难以有效选取。本文对这一问题也进行了研究,不但初步解决了邻域大小难以有效选取的问题,而且还进一步提出了对邻域大小不再敏感进而更具拓扑稳定性和鲁棒性的ISOMAP算法。另外,还在一定程度上拓展了ISOMAP算法的应用范围。主要创新工作有:   1.针对现有位置可调SOM算法都不可避免地会遇到神经元的过度收缩而为此引入的额外控制参数又难以选取的问题,提出了一种新的位置可调SOM算法——PASOM算法。该算法能有效避免神经元的过度收缩问题,同时,它的额外控制参数也比较容易选取。 2.针对现有位置可调SOM算法以及PASOM算法都需要额外控制参数并且它们都严重影响着数据可视化质量的问题,进一步提出了一种新的位置可调SOM算法——DPSOM算法。该算法能在无需任何额外控制参数的情况下自动避免神经元的过度收缩问题,同时还能更好地保持神经元间的距离信息,从而进一步提高了算法的可控性和数据可视化的质量。 3.针对ISOMAP算法对邻域大小敏感而邻域大小在实际中又难以有效选取的问题,提出了一种更加高效实用的参数选取方法——基于最短路径长度总和的参数选取方法。该方法具有比基于残差的参数选取方法更小的时间消耗,同时还能为后者提供进一步的合适邻域大小的上界。此外,还提出了对邻域大小不再敏感进而更具拓扑稳定性和鲁棒性的ISOMAP算法——CG-ISOMAP算法。实验证明该算法还能在不依赖于邻域大小的情况下发现数据真正的内在维数,而ISOMAP算法在邻域大小不合适时通常会发现偏大的内在维数。 4.在ISOMAP算法中,对长测地距离的逼近精度通常会比短测地距离差,而古典MDS算法却会牺牲对短边的保持精度,本文采用具有短边优先保持特性的非线性Sammon映射来改进ISOMAP算法以缓解这一矛盾,这就是ISOMAP-Sammon算法。实验证明该算法能成功地对更多的数据集进行可视化。另外,该算法也在一定程度上解决了非线性Sammon映射对初始值和学习率都比较敏感的问题。 以上算法的可行性和有效性通过实验都得到了很好的验证,特别是CG-ISOMAP算法能更容易用来对人脸数据集进行可视化,也能得到比较好的可视化效果。
其他文献
本文主要研究食用林产品生长因子监测实现过程的关键技术,并把该技术成功的应用到食用林产品生长因子监测系统中去。本文首先针对国内外现有食用林产品溯源产地对各种生长因
随着计算机网络的飞速发展,社会信息化程度不断提高,网络在带来巨大的经济效益和社会效益的同时,也面临着日益严重的安全问题。入侵检测技术作为一种主动防御技术,被认为是防火墙
互联网和无线通信技术的高速发展,产生了新型的商务模型:移动电子商务。在无线网络环境下进行商务活动,安全性是用户关心的主要问题,也是制约移动电子商务推广的主要因素。移
随着社会的不断发展,指纹识别作为一种重要的身份验证手段已经成为了国内外研究热点并且渗透到日程生活的各个方面,指纹识别至今已经发展了一百多年,但是我们对于高效指纹识别方
随着Internet的高速发展,人们的日常生活和网络息息相关,网络安全问题日显突出。相对于静态的、基于包过滤策略的防火墙技术,入侵检测技术是一种动态的、以数据分析与处理为核心
ASP(Application Service Provider,应用服务提供商)是一种业务租赁模式,企业用户可以直接租用ASP的计算机及软件系统进行自己的业务管理,从而节省一大笔用于IT产品技术购买
随着计算机硬件成本的下降,拥有大量计算机节点的集群环境正在普及。服务部署概念的出现为安装配置这些节点提供了方便,同时也为资源的共享提供了可能。在基于存储层次虚拟化
社交媒体平台是获取人们的观点、态度、意图和主观内心世界的一种重要途径,而自然语言处理和情感分析等相关技术则提供了有效的处理手段。本文面向微博的大规模文本数据,对用户
数字电视是电视技术、通信技术、和计算机技术的跨学科综合产物,被称为中国21世纪前景最广阔的产业之一。在数字电视系统中,如何解决异构平台和操作系统对上层应用支持的问题,是