基于图的半监督算法及其应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yuanli1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅速发展将人类社会带入大数据时代,人们面临以几何级数快速增长的海量数据。如何从这些海量数据中获取有用的知识是当前及今后相当长时期内全球科研工作者和技术专家所面临的共同挑战之一。此外,越来越多的数据呈现高维的趋势,比如数字图像、语音数据、文本数据以及基因表达谱微阵列数据等,降维技术已成为处理高维数据、克服“维数灾难”的重要途径。传统的维数约减方法虽然能够有效地学习出具有线性结构的高维数据的内在结构,但这类算法的线性本质决定了其不能揭示数据本身的非线性结构,从而不能发现高维数据的内在低维流形结构。为解决这些问题,流形学习则提供了一种有效的思路。然而,在很多实际的机器学习和数据挖掘任务中,人们很容易获得大量未标记数据以及少得可怜的标记数据,这恰好是半监督学习关注的重点:即如何从标记数据以及未标记数据中学习出有用的知识从而来改善学习性能。尽管以往许多半监督算法在很多实际应用中取得了成功,但也存在诸如邻域个数选择、对噪声、稀疏以及非平衡数据敏感等一系列问题。针对图的构建与优化等问题,本文对半监督降维算法进行了研究,并且在人脸识别、癌症分类等实际应用问题中验证了本文所提出算法的有效性。总的来说,本文主要贡献有:(1)本文提出一种基于局部估计误差的半监督维数约减算法(LEESSDR)。在半监督学习中,图的构建非常重要,然而以往很多半监督维数约减算法构造的邻域图是拓扑不稳定的,对邻域参数选择比较敏感以及对邻域图边权值设定不够准确。由于局部模型只是对特定数据的相邻点进行训练,因而局部学习算法常常超越全局学习算法。正是由于局部学习算法的良好表现,使得某个标签点可以很好地由它们的近邻来估计,因此LEESSDR通过使用局部学习投影(LLP)算法最小化局部估计误差来确定邻域图的边权值,最终有效地保持正负约束信息以及数据集所在低维流形的全局以及局部信息。由于LLP的优点在于该算法并没有要求输入空间局部线性,对于非线性的局部空间,LLP通过核函数将其映射到特征空间,然后在特征空间中求局部估计误差,因而提高了算法的参数鲁棒性。在Extended YaleB和CMU PIE标准人脸库上的实验结果表明LEESSDR算法的分类准确率以及鲁棒性都要优于其它半监督维数约减算法。(2)本文提出了一种基于随机子空间的局部和全局保持的半监督维数约减算法(RSLGSSDR)。在半监督维数约减算法中,图的构建起着非常重要的作用,然而面临噪声的时候,当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSLGSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减,在保持数据集局部结构的同时能够保持其全局结构。在公共数据集上的实验结果表明RSLGSSDR算法具有较好的分类准确率和参数鲁棒性。(3)本文提出了一种基于随机子空间的半监督维数约减算法(RSSSDR)。癌症分类对辅助临床决策很有作用,所以其精确的分类对于癌症的成功诊断和治疗是必不可少的。半监督维数约减算法在干净的数据集上表现地很好,然而当面临噪声的时候,当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减。此外,该算法通过最小化局部重构误差来确定领域图的边权值,在保持癌症数据集局部结构的同时能够保持其全局结构。在公共癌症数据集上的实验结果表明RSSSDR算法具有较好的分类准确率和参数鲁棒性。(4)首次将认知规律引入到半监督降维技术中来,设计了基于相对认知的半监督维数约减算法(RSSDR)算法。虽然半监督维数约减算法在很多实际应用中表现很好,然而当处理稀疏、噪声和非平衡数据时,它就难于确保构建一个良好的图进而影响了算法的表现。RSSDR根据认知的相对性规律提出了相对变换方法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。然后,该算法通过最小化局部重构误差来确定邻域图的边权值,最终不仅能保持数据集所在低维流形的全局信息也能保持其局部信息。在人脸、基因表达谱、UCI以及噪声数据集上获得了较其它半监督维数约减算法更优的分类准确率以及鲁棒性。
其他文献
[摘要] 社区体育作为社会的一个重要组成部分,在现代城市的发展中起着自己特殊的作用。本文通过对社区体育的概念理解,浅析社区体育在城市现代化建设过程中的功能。  [关键词] 社区体育 城市发展 功能    体育自从诞生以来就成为社会发展进步必不可少的支撑力量之一,目前其强大的社会功能更是日益凸显。城市现代化的发展,在居住环境的发展上也出现了一些新的特点。譬如,住宅大规模迁往郊区,造成公共建筑散置各处
在实际系统中,被控对象或过程所具有的非线性现象是普遍存在且无法彻底消除的。非线性的存在增加了系统的复杂性,同时给系统的分析与综合问题的研究带来了本质的困难。另一方面
近年来,互联网技术已经得到了极大的普及,二十一世纪早已经进入了信息时代。如今,已涌现出各种各样的管理系统,如企业信息管理系统,图书管理系统,学生信息管理系统,学生学籍
超导Josephson隧道结是实现超导量子比特的基本元件。利用悬空掩膜和电子束斜蒸发相结合的工艺方法制备Al/Al2O3/Al超导Josephson隧道结,并且系统研究了底电极、上电极薄膜的厚
超声激励-光纤光栅检测技术(Ultrasonic excitation-fiber Bragg gratings damage detection techniques, UE-FBGs)是近几年发展起来的一种新的检测技术,其基本原理是利用分
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
不宁腿综合征(restless legs syndrome,RLS)是尿毒症患者较为常见的睡眠障碍性并发症,常在静坐和睡眠时发生,主要表现为双下肢难以言明的酸胀、虫爬、蚁走、火烧、电击等不适感
某航空公司为了使人力资源得到合理配置,提高公司的人才考核效率,减轻人力资源部工作人员的工作压力,满足员工远程在线完成相关测试,提出开发一套适应现阶段考核用途的信息系
<正>农村发展没有统一的模式可以模仿,每个地方的特点不同,需要在发展中充分吸收地方知识。一些地区片面相信所谓现代知识,对于来自农村和农民的地方知识重视不够,结果出现了
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield