基于重构信息保持的降维算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:sophie8112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和存储技术的不断发展,越来越多的数据呈现出数据量大、维数高等新的特点。这些海量的高维数据包含更加丰富信息的同时,也带来了如维数灾难、计算量大等问题,对数据分析提出了新的挑战。因此,如何能够有效地描述高维数据并挖掘出其中有意义的信息成为亟待解决的问题。降维作为解决该问题的有效手段之一,在人脸识别、生物信息学、图像检索等领域都有着广泛的应用。近年来,随着降维技术的发展,人们对降维算法的要求逐渐提高,降维算法的优劣直接关系到对数据信息提取和分析的准确性。本文以提高维数据在降维后的可分性为目标,针对数据集的特殊性,在保持数据重构信息的基础上,提出两种不同的降维算法,并分别在不同数据集上对所提出方法的准确性和可靠性进行验证及分析。本文的主要工作及创新点概括如下:1.提出一种基于全局距离和类别信息的邻域保持嵌入算法(Neighborhood Preserving Embedding Algorithm based on Global Distance and Label Information,GLI-NPE)。GLI-NPE算法在邻域保持嵌入算法通过传统欧氏距离构造邻域图的公式中,加入表征全局距离的全局因子和表示数据类别信息的函数项。全局因子使分布不均匀的样本变得平滑均匀,使邻域保持嵌入算法在分布不均匀的样本上更为鲁棒。类别信息使类内样本点且紧凑类间样本点疏离,通过提高所选邻近点的质量,优化数据的局部邻域,使降维后的数据具有更好的可分性。实验结果表明,GLI-NPE算法能够有效提高数据降维后的分类准确率。2.针对高维的基因表达数据,立足于对数据进行维数约减的同时提高肿瘤数据的可分性,同时分析稀疏表示与近邻表示各自的局限性以及肿瘤数据中分类的独特性,提出一种基于判别混合结构保持投影(Discriminative Hybrid Structure Preserving Projections,DHSPP)的特征提取算法。DHSPP算法将稀疏表示与近邻表示线性组合成一种混合表示,然后根据类别信息将混合表示分为类内混合表示和类间混合表示,以最大化类间距离最小化类内距离为原则构造目标函数。此外,鉴于肿瘤数据大多为不平衡数据,在计算类内距离时加入平衡调节因子平衡多数类与少数类。实验结果表明,通过DHSPP算法对肿瘤表达数据进行降维,能够有效提高降维后肿瘤数据的分类准确率。
其他文献
学习系统泛化能力的提升一直是机器学习研究的重点。单一分类器无法避免的局限和不足导致其分类性能的提升遇到瓶颈。集成学习作为新的机器学习模式,采用若干个单一分类器预
随着互联网技术的飞速发展以及国家对公共基础设施建设的大力支持,目前全国大部分地区已经实现了WiFi全面覆盖。然而WiFi网络的开放性使其极易遭受各种类型的攻击,比如嗅探攻击,恶意接入点攻击等等。最典型的场景是密钥分享,攻击者在室外接收到室内的WiFi信号,凭借着窃取来的密钥,他仍然可以获得接入WiFi的权限。究其根本,原因在于身份验证的范围远远大于实际合法用户的范围,从而给了非法攻击者与合法用户等
学位
机会网络是一种新型的自组织网络,它的特点是节点间链路频繁断裂,整个网络通常处于不连通的状态,这样就导致传统无线自组织网络中的路由协议无法运行,所以在机会网络中节点通常采
伴随着网络信息技术的飞速发展,互联网+模式的迅速兴起,人们对于网络信息的获取与需求呈指数般增长。除了对文字信息的需求外,对于图像内容信息的认知与理解也逐渐为人们所重
现实中的很多问题可以转化为数据挖掘中的数据分类问题,这使得数据分类技术的应用领域十分广泛,例如商业保险、网络测量、气象预报、生物信息等。然而,随着信息技术的不断发展,各
移动机器人对工作环境地图信息的获取与更新是移动机器人在环境中正常工作的重要前提。距离网格地图作为描述环境信息的一种地图表示方式,是概率网格地图的重要补充,能够提供比
面向服务的架构(Service-Oriented Architecture,简称为SOA)是一个新兴的软件工程范例,用来开发动态演进的Web应用。服务的提供者和服务的使用者可以通过公共的服务注册机构
现实生活中存在着很多不平衡类数据分类问题,同时计算机和互联网技术的快速发展,使得现实生活领域的数据膨胀速度异常迅猛,因而大数据时代的不平衡学习面临着更为严峻的挑战,如何
数码照片和视频数据的急剧增长需要既能支持速度快又能支持内容形象化浏览的表达技术。随着图像文件数量的爆炸式增长,管理大量图像的内容的能力已成为一项关键技术。  一
目前国内外各个城市都在积极构建智慧城市应急指挥平台,但盲目无序的重复建设无法保证平台功能的完备性、通用性和可扩展性,本文将通过对于大量平台应用实例的分析,从领域工程的