基于未标记数据与类属属性的多标记学习算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:anitalok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统单标记学习(single-label learning)假设现实世界中的对象仅有单一的语义信息(semantic)。然而现实世界中的对象往往同时具有多种语义信息,使得上述单标记学习框架不再适用。近十年来,多标记学习(multi-label learning)吸引了众多研究者的关注。在多标记学习框架下,每个对象用一个示例(instance,通常为属性向量)描述其特征性质,并用一个标记集合(label set)来描述该对象的语义信息。本文针对多标记学习领域有待解决的问题,主要做了两个方面的工作:  在很多应用中,对数据进行标记是很费时且昂贵的工作,而未标记数据往往容易获得。因此,通过使用未标记数据来提高学习系统的性能是非常值得研究的。同时,我们希望学习系统可以正确预测训练中没有使用到的未见示例(unseeninstance)。为此,我们提出了非直推半监督多标记学习算法iMLCU(inductiveMulti-label Classification with Unlabeled data)。  另一方面,已经出现的多标记学习算法所采用的共同策略是使用相同的属性预测该示例的所有可能标记。该策略可能不是最优的,因为不同的类别标记可能分别拥有其自身独有的特征。因此,一种更优的策略是对每个标记使用其最相关的属性进行学习预测,即类属属性(label-specific feature)。基于此,我们提出了基于类属属性的多标记学习算法LIFT(multi-label learning with Label-specIfic FeaTure)。  本文共分为五章。第一章介绍多标记学习的基本概念、研究现状及有待研究的问题,并简述本文的主要工作;第二章给出多标记学习的问题定义(包括学习框架、主要挑战、评价指标等)并分析讨论了六种代表性的多标记学习算法;第三章和第四章分别介绍iMLCU算法和LIFT算法,并给出了实验结果;最后,在第五章中对本文进行总结。
其他文献
工作流是一类能够完全或者部分自动执行的经营过程,它能使一系列过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。而工作流管理系统则是一个软件系统,它完
随着网络信息化的日益发展,人们对网络安全性要求也日益增加传统的身份识别技术存在诸多缺陷,己不能满足现今需求在这种情况下,安全,稳定,快捷的生物识别技术应运而生而掌纹识别就
程序切片是一种程序分解技术。因目前切片方法缺乏模块性和灵活性,我们实验室曾提出一种新的形式化切片方法——模块单子切片。目前,模块单子切片的基本理论已初见规模,但是
产品设计是制造业企业产品周期各环节中最为重要的一环,决定着制造业企业在市场中的竞争能力。随着网络技术的发展,特别是因特网技术的日趋成熟,促使企业的生产方式逐步从独立经
随着经济的发展,现代企业迫切需要将物流、资金流、知识流通过一个纽带形成现代化管理平台,使得企业各部门、供应商、分销商、业务伙伴及客户协同运作,但是长期以来,企业内部信息
网格计算是近年来得到快速发展的广域网络计算技术,所谓网格(Grid)就是在缺少中央控制、没有全知音(omniscience)以及强的信任关系的情况下能够协同使用地理分布的各种资源.因此
智能传感器是一种可嵌入到物理世界并大量散布于环境当中的资源受限的设备。尽管资源十分有限,但是应用于智能传感器上的操作系统仍然要执行复杂的任务调度,并且要支持并发密
随着Internet的迅速发展,网络应用越来越多样性、广泛性。人们认识到网络安全的重要性。通过VPN技术可以解决网络通信安全问题,其中IPSec VPN以稳定、安全著称,IPSec通过使用加
视频监控以其直观、方便、内容丰富的特点广泛应用于安保、生产管理等场合,成为交通、金融乃至住宅、社区等领域安全防范的重要手段。近几年来,随着通信技术、多媒体技术及网络
网络安全问题的日益突出对入侵检测技术提出了更高的要求,然而现有入侵检测技术面对攻击技术的飞速变化仍然存在一定缺陷,入侵检测系统在很多地方还有待改进,如分布式、灵活