论文部分内容阅读
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义概念。而在许多实际应用中,学习对象往往同时与多个语义概念相关联。多标记学习是研究此类任务的一种学习框架,并已成功应用于许多领域。值得注意的是,如果独立地对每个标记进行学习,则对应的输出空间随着标记个数增加而指数级膨胀,每个标记的区分难度和所需的训练样本也急剧增加,这会导致巨大的存储和时间开销,且在一些样本较少的标记上难以获得好的泛化性能。因此,如何有效地对标记关系进行利用,是多标记学习中的核心研究内容。本文对此进行研究,主要工作包括: 1.提出一种不需事先获得标记关系就能有效学习,还能产生标记关系估计结果的多标记学习方法MAHR。以往多标记学习方法通常要先获得标记关系再学习,在缺乏外界知识源时易导致过拟合。本文提出MAHR方法,通过自动重用不同标记的分类模型,不仅可产生强泛化能力的多标记学习器,还能对标记关系进行估计。理论分析和实验验证显示出MAHR的有效性。 2.提出一种可对标记关系进行自适应局部化利用的多标记学习方法ML-LOC。以往多标记学习方法在利用标记关系时常假设其对所有样本均适用,然而现实任务中标记关系往往各有其适用范围。本文提出ML-LOC方法,通过自适应构造局部关系编码来约束标记关系的影响强度。实验结果显示出ML-LOC比全局化利用标记关系的方法有更强的泛化性能。 3.提出一种可利用标记关系的快速多示例多标记学习方法MIMLfast。以往多示例多标记学习方法通常仅能处理小规模问题。本文提出MIMLfast方法,通过将复杂的原始空间自动映射到低维的共享子空间,快速优化标记之间的相对排序。理论分析和实验验证显示出MIMLfast在保证强泛化性能的同时,能显著提高学习效率。 4.提出可通过利用标记关系减少人工标注样本数的多标记主动学习方法AUDI和QUIRE。以往多标记主动学习方法常忽略标记关系,在选择样本查询时仅考虑单一因素。本文提出AUDI方法和QUIRE方法,间接值接地利用标记关系,综合考虑信息量和代表性这两个重要因素。实验结果显示出AUDI和QUIRE能有效降低标注样本数。