高维数据上的半监督学习研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:anweiban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,各个行业收集到的数据越来越多,如何有效地从这些数据中挖掘出有帮助作用的信息,可以极大地促进这些行业的发展。机器学习是数据挖掘、知识发现的基础之一,它是当前及未来计算机科学中的一个热点方向。传统的机器学习主要针对监督式学习问题,要求训练样本的标记齐全,处理的数据维度一般不高。然而,随着数据采集技术的发展和广泛使用,采集到的样本不仅属性数量多、属性之间高度相关,而且有标记的样本极少,传统的机器学习方法难以在这些样本上进行有效地学习,急需能够综合利用大量无标记样本和少量有标记样本的机器学习模式。半监督学习能够综合利用有标记样本和无标记样本来提高学习器的泛化能力,近年来成为机器学习领域的热点方向之一。当前的半监督学习方法,特别是基于图的半监督学习方法,很多都只关注如何平衡利用无标记样本和有标记样本,却忽视了另一个更基础和更重要的问题,那就是如何在这些样本上构造能够真实反映样本之间相似关系的图,特别是在高维样本上。因为随着样本维度的增多,噪声特征和冗余特征也被大量引入,很多常用的距离度量并不能较好地刻画样本之间的相似性关系,基于这些距离也不能定义结构良好的图,而基于图的半监督学习中正是通过图来综合利用有标记样本和无标记样本。因此,如何在高维样本上构造图,是基于图的半监督学习方法在高维数据上有效性的关键,这也是其它基于图的学习方法成败的关键。本文针对高维数据上基于图的半监督学习存在的问题,以如何在高维数据上构图为出发点,以提高半监督学习的精度为目标,以度量学习和集成学习为基本手段,对基于图的半监督维数约减、半监督分类和半监督多标记分类展开深入研究,提出了一些构图方案,并把它们结合到基于图的半监督学习中。全文的主要贡献包括:1、提出一种增强型保局投影方法(ELPP)及其半监督版本(SELPP)。ELPP针对经典的保局投影方法(LPP)在高维数据上降维效果不佳和参数敏感的问题,利用鲁棒路径相似性度量构图,并应用到LPP的目标方程中。实验分析表明,ELPP不仅获得了较原始LPP更高的分类精度,而且对噪声特征和各种参数输入鲁棒,这也说明图结构在图嵌入方法中的重要性。SELPP继承了ELPP的所有优点,可以利用同类约束进一步提高降维结果的质量。实验表明,SELPP优于其它相关的半监督维数约减方法。2、提出一种混合图构造策略并把它应用到基于边信息的半监督维数约减中,进而提出基于混合图的半监督维数约减方法(MGSSDR)。MGSSDR不仅可以利用同类约束和未标记数据,它还可以利用异类约束进行维数约减。分析表明,MGSSDR的时间复杂度低于ELPP,它降维后的分类精度也高于其它相关方法,对噪声特征和近邻参数的输入也较鲁棒。混合图构建策略还可以应用到其它基于图的学习方法中。3、提出一种基于随机子空间降维的半监督分类方法(SSC-RSDR)。SSC-RSDR首先在多个随机生成的子空间上进行基于图的半监督维数约减,其次在这些维数约减后的子空间上构造多个k近邻图,再在这些图上分别训练半监督非线性分类器,最后融合这些分类器为一个集成分类器。实验结果表明,SSC-RSDR的分类精度不仅高于其它相关方法,而且对很多输入参数都很鲁棒,它较好地平衡了基础分类器之间的精确性和差异性,同时也克服了混合图依赖于子空间大小的不足。SSC-RSDR的图构造策略还可以应用到其它基于图的半监督学习方法中。4、提出一种子空间上的半监督集成分类方法(SSEC),该方法在多个划分的子间上构造多个k近邻图,再在这些图上训练半监督线性分类器(SSLC),最后把这些分类器进行投票集成。理论分析表明SSEC的时间复杂度低于SSC-RSDR。在高维人脸图像数据集上的实验结果表明,SSEC避免了随机子空间方法可能丢失重要特征的风险,它无需复杂的图优化过程,分类精度超过多种基于图优化的半监督分类方法,对多个输入参数也很鲁棒。子空间上的SSLC比原始空间上的SSLC拥有更高的精度,这证实了高维数据中的确存在大量的冗余特征和在子空间进行集成分类的合理性。5、提出一种有向双关系图,它可以克服无向双关系图容易出现标签覆盖的不足,基于有向双关系图提出一种直推多标记分类方法(TMC)和直推多标记集成分类方法(TMEC),并把它们应用到异构多数据源的蛋白质功能预测中。实验结果表明有向双关系图比无向双关系图效果要好,基于分类器集成的方法比基于多核集成的方法更适合蛋白质功能预测任务。
其他文献
董事会与盈余管理是财务与会计学术研究中的热点问题,我国民营上市公司的蓬勃发展为相关研究提供了独特的样本。本文研究中国民营上市公司董事会特征对盈余管理的影响。本研究
改革开放以来,我国各级地方政府把招商引资工作作为发展区域经济的首要任务来抓,招商引资成为很多地方政府的“一号工程”。政府承担了招商引资活动的一切工作,包括产业政策
随着专利对于个人、企业、社会乃至国家的重要性的逐渐加深,各国都大力加大专利权的制度的构建。而专利权制度构建的过程也是民事体系不断地进行扩张的一个过程,其中对于整个专
随着互联网时代的发展,Web网站应用已经成为每个公司的标配套件。互联网时代的来临正在快速的改变着众多线下的传统行业,线下传统行业如何和线上的互联网行业成功的对接也是我
随着我国经济的不断发展,人们的生活水平也不断提高,居住区的建筑设计呈现蓬勃之态,建筑设计样式也不断推陈出新。因地下车库形成的局部空间下沉的形式就是近年在居住区出现较多
大功引黄灌区是河南省重要的粮、棉生产基地,也是水资源严重匮乏的地区.随着社会经济的发展和人民生活水平的提高,灌区内水资源的供需矛盾日益加剧,生态环境逐渐恶化.为解决
<正>崔军北京大学法学学士、北京大学法学硕士,中国对外承包工程商会专家委员、中国国际经济贸易仲裁委员会仲裁员、英国建筑法学会会员、英国土木工程师学会关联会员、英国
生物降解塑料作为一种环境友好型功能材料得到了人们越来越多的重视。利用天然高分子材料制备可降解塑料不仅有利于缓解目前严重的环境污染问题和日益加深的石油危机,更因为其
发光二极管(Light Emitting Diode, LED)凭借其高效低耗、绿色环保、响应时间短等优点,正在成为传统照明产业升级换代的新一代照明光源。LED芯片光提取效率的提高是LED照明普及
网络交易平台提供商是网络交易平台的经营者,并不参与到网络交易过程,仅仅为网络交易提供平台保障和技术支持。在现实中,网络卖家通过网络交易平台销售侵权产品构成商标侵权时,网