多标记学习中标记关系利用的非军事化

来源 :南京大学 | 被引量 : 0次 | 上传用户:leon7779
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义概念。而在许多实际应用中,学习对象往往同时与多个语义概念相关联。多标记学习是研究此类任务的一种学习框架,并已成功应用于许多领域。值得注意的是,如果独立地对每个标记进行学习,则对应的输出空间随着标记个数增加而指数级膨胀,每个标记的区分难度和所需的训练样本也急剧增加,这会导致巨大的存储和时间开销,且在一些样本较少的标记上难以获得好的泛化性能。因此,如何有效地对标记关系进行利用,是多标记学习中的核心研究内容。本文对此进行研究,主要工作包括:  1.提出一种不需事先获得标记关系就能有效学习,还能产生标记关系估计结果的多标记学习方法MAHR。以往多标记学习方法通常要先获得标记关系再学习,在缺乏外界知识源时易导致过拟合。本文提出MAHR方法,通过自动重用不同标记的分类模型,不仅可产生强泛化能力的多标记学习器,还能对标记关系进行估计。理论分析和实验验证显示出MAHR的有效性。  2.提出一种可对标记关系进行自适应局部化利用的多标记学习方法ML-LOC。以往多标记学习方法在利用标记关系时常假设其对所有样本均适用,然而现实任务中标记关系往往各有其适用范围。本文提出ML-LOC方法,通过自适应构造局部关系编码来约束标记关系的影响强度。实验结果显示出ML-LOC比全局化利用标记关系的方法有更强的泛化性能。  3.提出一种可利用标记关系的快速多示例多标记学习方法MIMLfast。以往多示例多标记学习方法通常仅能处理小规模问题。本文提出MIMLfast方法,通过将复杂的原始空间自动映射到低维的共享子空间,快速优化标记之间的相对排序。理论分析和实验验证显示出MIMLfast在保证强泛化性能的同时,能显著提高学习效率。  4.提出可通过利用标记关系减少人工标注样本数的多标记主动学习方法AUDI和QUIRE。以往多标记主动学习方法常忽略标记关系,在选择样本查询时仅考虑单一因素。本文提出AUDI方法和QUIRE方法,间接值接地利用标记关系,综合考虑信息量和代表性这两个重要因素。实验结果显示出AUDI和QUIRE能有效降低标注样本数。
其他文献
由于在军事、医学、天文等方面的广泛应用,弱小目标检测成为了图像处理领域中一项重要的研究课题。对于实际的武器系统而言,如何充分发挥光电目标检测技术的优势,提高目标的检测
Applied pi-演算是用来表示和分析安全协议的演算。它从pi-演算中继承了通信,并发以及限制算子。它引入了原语函数和等值理论来表示安全协议中的相关操作。在applied pi-演算
随着集成电路的摩尔定律的继续发展,单个芯片内部集成的处理器核数量越来越多,未来一块芯片就可以容纳上千个核;另一方面,考虑到功耗和性能的平衡,这些核中的一些核的计算能力比较
人体行为识别指对人体运动模式进行分析和识别,是当前计算机视觉领域的研究热点,在智能监控、高级人机交互、体育运动分析等方面具广阔的应用前景。本文研究的目的就是在成功
随着人们对视频和音频信息的需求愈来愈强烈,追求远距离视音频的同步交互成为新的时尚。近些年来,依托计算机技术、通信技术和网络条件的发展,集音频、视频、图像、文字、数据为
1985年,Miller和Koblitz分别独立地提出了椭圆曲线密码体制(elliptic curvecryptosystems,ECC)。相对于其它的公钥密码体制(如RSA),ECC只需较短的密钥就可以达到较高的安全级别
随着硬件技术的发展,计算机的处理能力越来越强,但资源利用率并不高效。虚拟化技术通过服务器整合,将原来的多台服务器以虚拟机的方式整合在少量物理机上,并在虚拟机之间提供了很
近年来,随着无线通信的快速发展,在电网未能覆盖到的边远地区,利用风能、太阳能光伏发电设备组成的通信电源系统,在解决通信系统供电中正发挥着越来越重要的作用。可再生能源利用
自计算机技术出现以来,各种应用不断的推广,使各种数据信息资源也不断的膨胀,大量的数据信息需要存储和管理,关系数据库很好的解决了信息的存储和一些管理上的应用。在这些大量的
语言知识库是众多自然语言处理系统不可或缺的组成部分,同时也是各种自然语言处理技术赖以实现的基础。随着语料库方法和统计语言模型在自然语言处理领域的广泛运用,大规模语言
学位