论文部分内容阅读
随着人工智能时代的到来,深度学习正逐步被应用到日常生活的各个领域,例如,人脸识别、自动语音转换等,并取得了不亚于人类表现水平。然而,受复杂的内部结构影响,深度学习模型虽然能通过自动建立高阶抽象特征,获得比人工选择特征更好的学习效果,却往往表现出可解释性较弱、调参效果难以估计等特性,造成模型优化困难等问题。除了受其内部结构影响之外,深度学习模型的优化效果也与训练数据质量有着极为密切的关系。受数据偏置影响,深度学习模型中广泛存在一类问题:Unknowns Unknowns(UUs)。这是一种由训练数据与实际应用数据分布不一致造成的严重错误,很难预先通过常规评测指标发现,尤其是图像类机器不擅长处理的数据,极易导致模型在生产环境中失效。为消除UUs的不良影响,应从源头上对训练数据分布进行优化。考虑到图像描述(要求机器生成图像的对应描述)等应用中的UUs通常隐藏在海量图像数据中,不易被机器发现的特点,首要问题就是如何发掘UUs。鉴于人类对图像等类型的高维数据具备良好的抽象认知能力,故其在发现UUs问题上具有很大的优势。受益于众包技术等数据清洗工具的普及,研究者可通过报酬激励等方式,引导人类工作者在有限时间内,运用其具备的基本常识(Commonsense Knowledge)对数据进行筛选标注。获取的数据可用于为各类模型提供高质量的候选训练子集,进而优化训练数据的分布,达到消除UUs的目的。现有的UUs发现方法主要有两类,一是直接将所有数据打包交由众包筛选,经异常数据分析得到UUs相关信息;二是对预先分片的数据进行分组随机抽样标注,通过统计错误密集分片所对应的特征发现目标UUs。前一类方法严重受限于数据量,即应对海量训练数据需求时,数据获取成本随目标数据量级增加而骤增。第二类方法的缺陷则在于:特征划分粒度难以控制,粒度过细,容易导致大量冗余标注;反之,不同类型UUs混杂,难以分割。综合以上两点,如何在有限预算下尽可能高效地发掘UUs成为了一个重要课题。针对以上问题,本文以图像描述领域的深度学习模型UUs消除任务为主要研究对象,对如何发掘并削减海量数据中的目标UUs、控制其中涉及的众包标注任务成本这两个问题进行了详细研究,主要工作如下:(1)提出了一种基于众包外部数据标注,优化模型训练数据分布,消除目标UUs并提升生成描述质量的工作流。该工作流能有效借助半自动定位方法及关键词的近义扩展等手段发掘目标UUs,并借助众包标注等对外部图像数据进行相应扩展。实验证明该工作流能有效减少目标类型UUs数量;在独立、混合场景下,目标图像的UUs识别准确率均有10%以上的提升。此外,生成描述模型在不修改内部结构前提下,原有评测指标表现基本不受影响,部分指标略有提升。(2)提出了一套针对众包常识性标注任务的设计原则。针对如何平衡工作者心理与任务目标间关系、控制任务成本同时确保工作者参与积极性等问题进行分析与探究,并据此设计对照实验,分别对其可行性与有效性进行了验证。实验证明,通过对常识性标注任务采取隐式的游戏化定制、好友排行激励等方式,可在零报酬(不考虑游戏开发成本)前提下,高效获取优质的标注数据。本文针对深度学习图像描述UUs消除任务进行集中研究,依据深度学习模型依赖训练数据质量等特点,提出了一种基于众包的半自动化模型优化方法流程,该方法同样适用于其他深度学习应用的优化问题,可用于其他类别图像、文本数据集偏置问题的修正。另外,以该方法流程的成本、质量稳定性为主要优化对象,本文提出了一套针对众包常识性标注任务的设计原则,着重探究了隐式游戏化应用对众包标注任务设计的积极作用,该设计原则同样适用于其他普通类型众包任务,具有较高的可扩展性。