论文部分内容阅读
多标记学习处理的是单个样本可以同时拥有多个相关标记的任务。以往的多标记工作要求使用耗费高昂且不易获取的真实标记。相比之下,通过将任务分配给多个易于访问但可能犯错的非专家,众包提供了一种新的标记收集方式。本文考虑众包环境下的多标记学习,从以下几个方面进行了研究:1.标记关系及标注者能力建模的多标记众包学习。众包标注一方面存在错误,另一方面其数量和质量的变化也敏感地影响标记关系的估计。本文提出基于概率图模型的方法NAM,模拟标注者在各个标记上的准确率并使用邻域样本的局部标记关系。基于相似样本的标注也应该相似,我们利用样本特征空间的信息增强标记关系的估计,使用邻域样本标注的局部影响。考虑到实际应用中标注预算通常有限,本文还将NAM扩展到主动众包学习,降低标注成本。实验验证了方法的有效性。2.标记关系及标注者特殊行为建模的多标记众包学习。由于涉及多个标记,标注复杂度和难度的增加会对标注者的行为产生不同于其在单标记任务上的影响。本文注意到标注者“省力”的行为方式,即相比于仔细检查所有标记并认真标注,标注者倾向于快速地标出他们认为最相关的少数几个标记。本文提出RAM方法,从标记相关程度考虑,将标注者能力定义为区分两两标记相关性的准确率,同时刻画标注者的行为和标记对的关系。我们也将RAM扩展到主动众包学习。实验验证了方法的有效性。3.不完整标注的快速多标记众包学习。由于完整的多标记标注不仅标注负担很重,还可能对标注者行为及其标注结果产生不可控影响,本文考虑从对标注者要求更低的数据形式中进行学习,仅要求样本的“部分”标注。本文提出CRIA方法,考虑到标注者可靠的情况下,所有标注者在所有样本和标记上的标注应该存在全局的低秩结构关系,首先使用高效地低秩张量优化方法补全缺失的标注,然后在完整的标注上做融合。CRIA在学习效果和计算效率方面均远远优于以往的工作。我们也将CRIA扩展到主动众包学习。实验验证了方法的有效性。4.多标记众包的不良标注者检测。多标记任务上垃圾标注者和恶意标注者不仅会造成很大的资源浪费,还会破坏整体的标注质量。本文提出WorkerAna方法检测这些不好的标注者。在缺少标注者特征信息和仅有少量标注数据的情况下,基于好的标注者、恶意标注者之间存在二聚类结构,而垃圾标注者类似异常点的想法,我们学习标注者的隐空间表示并分析标注者的类型。实验验证了方法的有效性。本文还将WorkerAna方法扩展到部分视图聚类的情况,以处理多视图数据中视图存在缺失的情况。