多视图在利用未标记数据中的效用分析

来源 :南京大学 | 被引量 : 0次 | 上传用户:teer197841
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的机器学习中,学习器通过对大量有标记样本进行学习来建立模型预测新样本的标记。但是收集大量数据相对容易,而对这些大量数据提供标记却比较困难,因为对数据进行标记需要付出人力物力。因此,如何利用大量廉价的未标记数据来辅助提高泛化性能已成为当前机器学习研究中最受关注的问题之一。在很多实际任务中,数据往往具有多个视图(即多个属性集),基于不一致性的学习是这种情况下利用未标记数据进行学习的主流风范,在实际应用中取得了很好的效果。但对多视图在利用未标记数据中的效用,在理论上还有很多方面不清楚。本文对此进行理论分析,主要取得了如下创新成果:  第一,对多视图在半监督学习中的效用进行分析,证明了只要学习器具有较大的差异,协同训练就可以有效进行;通过建立协同训练与基于图的方法之间的联系,从理论上给出了协同训练成功的充分必要性定理,解决了这个已存在12年的重要问题。该理论结果揭示了多视图并非协同训练的必要条件,不仅为已有的单视图协同训练提供了理论支撑,还拓展了半监督学习方法的设计途径。  第二,对不完备视图在半监督学习中的效用进行分析,揭示了视图不完备时协同训练会受到标记噪声和采样偏差的限制,但在视图之间预测置信度的差异较大时,协同训练可以克服标记噪声和采样偏差的制约。该理论结果解释了为何视图不完备时协同训练也可以有效地利用未标记数据提高泛化性能,从而弥补了以往理论研究与实际应用之间的间隙。  第三,对不完备视图在主动学习中的效用进行分析,从理论上证明了当视图的不完备性由Tsybakov噪声引发时,多视图主动学习可以将样本复杂度指数级地降低为(O)(log1/ε)。这一结果对于有界和无界的Tsybakov噪声都是成立的,而以往理论分析显示出,对无界Tsybakov噪声,单视图主动学习最多只能将样本复杂度多项式级地降低为O(ε-p)。该理论结果为多视图主动学习在实际应用中的有效性提供了理论支撑。  此外,本文还对多示例多标记学习的可学习性进行了理论分析,揭示了由多示例单标记假设空间构造得到的多示例多标记假设空间是PAC可学习的。
其他文献
近十年来,为了扩展不同平台、不同操作系统和不同供应商的应用程序之间的互操作性,面向服务的计算(SOC)应运而生。作为SOC的核心基础技术,Web服务技术得到了广泛研究。其中,W
该文结合所承担的国家"九五"重点科技攻关计划(96-743-01-01-05)专题"网络信息获取前后服务处理技术"和"金桥"工程项目的"Web信息获取系统"开发任务,采用可靠组播(Reliable M
Web技术是一种流行、实用的技术,目前在各个领域得到广泛应用Web数据库是基于B/S模式的数据库解决方案,为动态管理大量数据,实现数据共享提供了有力手段.该论文从塔里木石油
针对彩色硬拷贝输出设备色域普遍较小的现象,在系统研究彩色分色技术现状的基础上,给出了一种灵活的综合分色算法.该算法将现有的分量替代(GCR)、底色增益(UCA)、底色去除(UC
该文提出了"自适应存储系统"的概念,并对自适应存储系统的基本思想,方法,各种相关算法,以及一些实现问题进行了深入研究.主要的研究内容包括:自适应存储系统定义与范畴,存储
野战战术CI系统是把各种武器系统、各军兵种及战场条件凝聚成一个有机整体,快速、准确地搜索、处理各种信号数据,进行实时指挥控制的军事决策系统.该篇论文对专家系统的两大
网络技术迅速发展极大提高了信息网络化的应用效率,但是由于重要信息在网络中的存在与传播,使得网络安全问题也更加突出,加深了信息共享和安全隔离之间的矛盾。据统计分析,内
图像识别是一门新型技术科学,在科研与工业生产中得到了广泛应用,例如指纹识别、语音识别及虹膜识别等等.图像识别的重点在于抓住图像的特点,对图像作出正确的描述、处理、分
该文对有关多媒体网络的若干技术问题进行了较为详细的描述与探讨,对多媒体的关键技术,如音频和视频的压缩技术进行了细致的分析与研究;对多媒体网络的同步技术及并发控制问
作者们的研究课题始于1991年,其目标是研制一个实用化的对象-关系数据库管理系统(ANGEL),该系统独创性地采用了非一范式结合面向对象的数据模型,从而直接支持复杂对象和对象嵌入