众包域值标注算法研究

来源 :南京财经大学 | 被引量 : 3次 | 上传用户:zs83315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着众包模式的不断兴起,深度学习领域也从中收益,大量的标注任务从原本费时费力的专家标注转变为众包标注,大大提高了标注数据的规模。通过众包方式进行标注,具有经济、方便、高效的特点。但是,由于标注者数量庞大,标注质量参差不齐,导致冗余标签中存在误差甚至错误,必须经过分析处理才能聚合形成最终标签。本文针对图像标注进行了研究,引入EM算法对众包域值标注的标签质量进行评估,并且对传统算法进行改进,主要工作如下:(1)在众包标注过程中,会产生大量重复标签,因此对标签的真值推理和对标注者的标注质量评价非常重要。本文在研究EM算法基础上,通过加入含有黄金标签的标注任务,对初值进行优化,过滤低质量标注数据,用较少的标签获得较高的标注质量,从而降低标注成本。(2)传统的EM算法模型没有对数据标签的可信程度进行研究,本文对EM算法模型提出改进,提出了域值标注的概念,并且定义了漏标和过标的质量评价指标,增加标签域置信度参数,用来衡量标注者对不同标注对象的可信度,可以使得算法更加灵活,对标注者质量评价更加准确。(3)本文引入经典的K-means算法对最终标签域进行聚合,在众包标注过程中,由于冗余标签的准确度存在差异,所以聚合中心点应该偏向高质量的标签,因此本文改进了K-means中的距离公式,对标注点进行准确率加权,提高标签域聚合准确度。
其他文献
公民社会理论是分析个人、社会、国家关系的重要理论。立足于政治社会学的视角,从个体、社会与国家关系入手,可对公民社会理论的历史演变作出源流探析。公民社会在联系个人与
<正>现在大量的数字系统被应用于工厂,用来测量、汇集、传输和显示数据信息。温度和压力等参数被测量、显示并且反馈至过程控制系统,同时控制对应的阀门、变频器、电动机等执
将熵作为复杂性的度量,给出了管理熵度量与评价管理复杂性的新尺度、方法的基本概念、定义和原理;建立了复杂性度量的数学模型;在信息转化矢量空间、功能矢量空间和结构矢量
本文认为,我国税法中的信赖保护是有保留的,信赖利益保护原则具有鲜明的时代特征,充分体现了以人为本、法治人性化的特色,应该尽早引入我国的税法体系,以进一步保护纳税人权
浅埋顶管隧道越来越多的被应用在市政工程领域,且通常位于建筑物密集的市区,由此引发的环境安全问题越来越引起学者的注意。本文针对虹许、虹梅雨水泵站及总管新建工程,采用F
B.F.斯金纳是美国行为主义学习理论的代表人物之一,强化理论是其操作学习理论的核心部分。本文在全面分析了斯金纳对强化类型,强化安排的研究成果的基础之上,结合当前大学听
在满足填埋控制标准的前提下,尽可能降低重金属危险废物固化/稳定化的增容比,能够有效节省填埋库容、延长填埋场运行年限。通过实验室的药剂筛选、配比试验,本研究以20∶1的
目前使用的农药中有大约25%为手性农药,此比例随着更多复杂化合物的应用而不断增加。大多数手性农药仍以消旋体形式进行生产和使用,虽然不同对映体在生物活性、毒性、新陈代
随着基因检测、基因治疗等人体基因科技的迅速发展,科学技术在给人来带巨大福祉的同时也产生了大量法律、社会和伦理问题,带来了一系列的负面影响。而目前我国的基因技术发展水