基于众包的深度学习图像描述Unknown Unknowns消除研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:sznzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能时代的到来,深度学习正逐步被应用到日常生活的各个领域,例如,人脸识别、自动语音转换等,并取得了不亚于人类表现水平。然而,受复杂的内部结构影响,深度学习模型虽然能通过自动建立高阶抽象特征,获得比人工选择特征更好的学习效果,却往往表现出可解释性较弱、调参效果难以估计等特性,造成模型优化困难等问题。除了受其内部结构影响之外,深度学习模型的优化效果也与训练数据质量有着极为密切的关系。受数据偏置影响,深度学习模型中广泛存在一类问题:Unknowns Unknowns(UUs)。这是一种由训练数据与实际应用数据分布不一致造成的严重错误,很难预先通过常规评测指标发现,尤其是图像类机器不擅长处理的数据,极易导致模型在生产环境中失效。为消除UUs的不良影响,应从源头上对训练数据分布进行优化。考虑到图像描述(要求机器生成图像的对应描述)等应用中的UUs通常隐藏在海量图像数据中,不易被机器发现的特点,首要问题就是如何发掘UUs。鉴于人类对图像等类型的高维数据具备良好的抽象认知能力,故其在发现UUs问题上具有很大的优势。受益于众包技术等数据清洗工具的普及,研究者可通过报酬激励等方式,引导人类工作者在有限时间内,运用其具备的基本常识(Commonsense Knowledge)对数据进行筛选标注。获取的数据可用于为各类模型提供高质量的候选训练子集,进而优化训练数据的分布,达到消除UUs的目的。现有的UUs发现方法主要有两类,一是直接将所有数据打包交由众包筛选,经异常数据分析得到UUs相关信息;二是对预先分片的数据进行分组随机抽样标注,通过统计错误密集分片所对应的特征发现目标UUs。前一类方法严重受限于数据量,即应对海量训练数据需求时,数据获取成本随目标数据量级增加而骤增。第二类方法的缺陷则在于:特征划分粒度难以控制,粒度过细,容易导致大量冗余标注;反之,不同类型UUs混杂,难以分割。综合以上两点,如何在有限预算下尽可能高效地发掘UUs成为了一个重要课题。针对以上问题,本文以图像描述领域的深度学习模型UUs消除任务为主要研究对象,对如何发掘并削减海量数据中的目标UUs、控制其中涉及的众包标注任务成本这两个问题进行了详细研究,主要工作如下:(1)提出了一种基于众包外部数据标注,优化模型训练数据分布,消除目标UUs并提升生成描述质量的工作流。该工作流能有效借助半自动定位方法及关键词的近义扩展等手段发掘目标UUs,并借助众包标注等对外部图像数据进行相应扩展。实验证明该工作流能有效减少目标类型UUs数量;在独立、混合场景下,目标图像的UUs识别准确率均有10%以上的提升。此外,生成描述模型在不修改内部结构前提下,原有评测指标表现基本不受影响,部分指标略有提升。(2)提出了一套针对众包常识性标注任务的设计原则。针对如何平衡工作者心理与任务目标间关系、控制任务成本同时确保工作者参与积极性等问题进行分析与探究,并据此设计对照实验,分别对其可行性与有效性进行了验证。实验证明,通过对常识性标注任务采取隐式的游戏化定制、好友排行激励等方式,可在零报酬(不考虑游戏开发成本)前提下,高效获取优质的标注数据。本文针对深度学习图像描述UUs消除任务进行集中研究,依据深度学习模型依赖训练数据质量等特点,提出了一种基于众包的半自动化模型优化方法流程,该方法同样适用于其他深度学习应用的优化问题,可用于其他类别图像、文本数据集偏置问题的修正。另外,以该方法流程的成本、质量稳定性为主要优化对象,本文提出了一套针对众包常识性标注任务的设计原则,着重探究了隐式游戏化应用对众包标注任务设计的积极作用,该设计原则同样适用于其他普通类型众包任务,具有较高的可扩展性。
其他文献
煤矿救援通信系统是现代煤矿企业实现应急救援必不可少的一部分,且煤矿环境是一种特殊的受限环境。改善煤矿安全保障技术,实现高效安全生产是煤矿工业的长远目标。但是,煤矿井下地形复杂,环境恶劣,事故的随意性使煤矿事故时常发生,带来严重的经济、生命和财产损失。无线传感器网络具有自组织,低功耗,快速部署,抗破坏性强的特点,为煤矿应急通信和救援系统的应用提供了重要的优势,可以极大地响应煤矿的特殊环境。无线传感器
自创业板市场的推出,为创业板企业提供了更加方便的融资渠道和平台,创业板企业可以利用多种融资途径,实现对企业运营资金投入比例的增加,同时实现对企业资本的扩充。目前越来越多的企业开始重视融资管理问题,在企业融资管理过程中,风险融资管理方式的不同,企业融资的合理性,直接影响到企业的投资规划及发展。因此,创业板企业的发展对融资管理需求较大。然而,在多种因素的影响下,不少创业板企业的融资管理体系存在不足,导
近些年,城市轨道交通在引领和支撑城市发展、推动发展社会经济、优化城市布局结构、降低环境污染、改善交通拥堵、提高公共出行度等方面发挥着越来越重要的作用。但与此同时,城市轨道交通运营安全隐患日益凸显,安全事故频频发生,严重威胁了人民的生命财产安全和影响了我国轨道交通事业的高质量发展。基于此,本文首先从发展历程、研究对象、研究方法、研究内容及实证分析等层面对国内外地铁运营现状进行了研究评述,得到了现有地
环境友好、结构稳定、低成本的橄榄石型正极材料引起众多科研工作者的兴趣和关注,但自身较差的锂离子的传输特性和低的电子导电性限制了此类正极材料的进一步发展。本文以橄
当今社会,居民亲自去医院看病的程序越来越繁琐,简单的数据测量也变得十分复杂,找医生看病咨询通常也需要提前预约排队,给居民造成了许多不必要的麻烦。社会目前处于信息高速
随着移动互联网和智能手机终端的飞速发展,微信作为国内用户使用频次最高的移动社交APP已成为移动互联网的最佳入口。2012年8月上线的微信公众平台,提供了一种全新的媒体信息
政府非税收入是政府财政收入的重要组成部分,在财政收入中担负着遗失补缺的职责。规范非税收入,对推进公共财政建设、落实政府公共服务职能、促进社会的法治化、民主化意义深远。非税收入从其产生、快速发展以来,就受到了政府、学者的密切关注,政府出台了一系列政策来抑制、减少非税收入的过快增长,不断完善非税收入征收管理体系,促进非税收入法制化和非税收入的健康发展。近几年,通过“减税降费”政策,国家清理了一批行政事
自从国际标准化组织于1987年颁布ISO9000标准以来,国外第三方认证公司开始在中国市场着手推广质量管理体系认证服务,随着改革开放的进一步扩大,中国在质量管理体系认证方面的
为了了解和及时反馈医学模拟教学法在外科学基础教学中的效果,本文对医学模拟教育的形成背景、发展情况、国内外研究进展及开展医学模拟教育的意义等几个方面,阐述了医学模拟教育的基本概念和概况。通过对南京医科大学临床医学专业学生进行传统教学和医学模拟教学的对比研究,设计教学案例及评价体系,并通过调查问卷对教学效果进行评价研究。本文采用文献分析法、专家访谈法、问卷调查法、随机对照研究法进行研究。选取2016级
伴随着城镇化的发展、城市人口与经济的增长以及城市居民消费模式的转变,消费者对商品和配送服务的需求也迅速增长。网络购物的兴起极大的改变了购物方式,也促进了快递物流业的迅猛发展。城市作为重要的物流配送网络节点,正面临着大量配送车辆尾气排放,噪声污染等恶劣影响。电动汽车具有能耗低、噪音低、污染小等优点,代替燃油车进行城市运输活动可以极大的改善解决传统车辆城市配送给城市造成的不利影响。然而,与燃油车相比,