论文部分内容阅读
传统单标记学习(single-label learning)假设现实世界中的对象仅有单一的语义信息(semantic)。然而现实世界中的对象往往同时具有多种语义信息,使得上述单标记学习框架不再适用。近十年来,多标记学习(multi-label learning)吸引了众多研究者的关注。在多标记学习框架下,每个对象用一个示例(instance,通常为属性向量)描述其特征性质,并用一个标记集合(label set)来描述该对象的语义信息。本文针对多标记学习领域有待解决的问题,主要做了两个方面的工作: 在很多应用中,对数据进行标记是很费时且昂贵的工作,而未标记数据往往容易获得。因此,通过使用未标记数据来提高学习系统的性能是非常值得研究的。同时,我们希望学习系统可以正确预测训练中没有使用到的未见示例(unseeninstance)。为此,我们提出了非直推半监督多标记学习算法iMLCU(inductiveMulti-label Classification with Unlabeled data)。 另一方面,已经出现的多标记学习算法所采用的共同策略是使用相同的属性预测该示例的所有可能标记。该策略可能不是最优的,因为不同的类别标记可能分别拥有其自身独有的特征。因此,一种更优的策略是对每个标记使用其最相关的属性进行学习预测,即类属属性(label-specific feature)。基于此,我们提出了基于类属属性的多标记学习算法LIFT(multi-label learning with Label-specIfic FeaTure)。 本文共分为五章。第一章介绍多标记学习的基本概念、研究现状及有待研究的问题,并简述本文的主要工作;第二章给出多标记学习的问题定义(包括学习框架、主要挑战、评价指标等)并分析讨论了六种代表性的多标记学习算法;第三章和第四章分别介绍iMLCU算法和LIFT算法,并给出了实验结果;最后,在第五章中对本文进行总结。