众包标注的学习算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:mishier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网技术的飞速发展,当今社会进入了大数据时代。为了提高机器学习和数据挖掘等技术对数据的处理能力,需要快速对海量数据进行高质量的标注,以实现对相关算法模型的训练和应用。众包标注是利用众包技术对数据进行标注的方法,具有成本低,速度快的特点,因此得到了广泛的关注和应用。然而,由于参与众包标注的工作者数量很多,且其专业背景和工作能力参差不齐,导致收集到的标注标签中存在噪声甚至错误,不能直接作为正确的标签使用。为了对众包标注收集到的标注标签进行过滤和整合以得到正确的标签,需要研究众包标注的学习算法。本文从工作者的标注行为以及任务的特征出发,对众包标注的学习算法进行研究,主要工作如下:(1)提出基于众包标注标签平衡度的任务难度评估方法。通过对任务的众包标注产生的各类标签的规模进行统计分析,定义了该任务各类标签之间的平衡度,并利用该平衡度,对该任务的难度进行合理的评估。(2)提出基于工作者能力和任务难度的众包学习算法。针对众包标注过程中收集到的标签,首先利用基于众包标注标签平衡度的任务难度评估方法得到任务的难度,再结合工作者的准确度和一致度的衡量结果,对工作者的工作能力进行评估,最终根据各工作者的能力整合出最终的标签,提升众包标注标签的质量。(3)提出基于任务特征的半监督众包学习算法。首先对参与众包标注的任务的特征进行聚类,然后在各个聚类簇上,利用部分具有正确标签的任务,有监督地学习出工作者在不同类型的任务特征上的标注能力,最后确定没有正确标签的任务的最终标签。通过将任务的特征引入到众包标注的学习算法中,提高了对具有特定特征的任务进行众包标注的质量。
其他文献
人生头3年胜过以后发展的各阶段。研究以"哈佛学前项目"总负责人怀特的《The First Three Years of Life》为内容依据,自编量表对105位婴幼儿家长进行测评。结果表明:(1)婴幼
近几年,证券市场交易成为了人们热议的焦点,其中存在的过度投机性等非理性投资行为也受到了不同群体的关注,如何应用行为金融学实现理性投资,是个人投资者、券商以及政府需要
为便于和国际标准接轨,我国防爆电机行业统一设计了YB3系列隔爆型三相异步电动机,文章对其技术设计情况做了介绍,并详细指出了产品设计的范围和主要技术条件。
纳税人权益维护问题日渐引起社会各界的重视,纳税人权益维护应该不只是依靠外界的努力,纳税人的自我保护也是不可缺少的一环,因此不能产生片面的认识。
在学者提出我国应完善股东代表诉讼的同时,公司在代表诉讼中应处何种法律地位成为学者争论的一个焦点问题。由于股东代表诉讼与一般诉讼的不同,公司应有权选择自己参加或不参
传统的房地产成本法估价中存在着工作繁琐、受估价师影响较大的缺点。针对这些不足,将GIS和BIM技术引入成本法估价中:在房地分估的路径下,利用GIS对评估区域的土地市场价格进
在中国经济去产能以及光伏产业产能利用率长期较低的背景下,本文选用2011~2015年沪深两市光伏概念上市公司的面板数据,通过随机前沿生产函数法对企业的产能利用率进行估算,并
近年来随着城乡教育差距的增大,教育部提出了城乡教育均衡发展战略,这一战略的提出对农村中学即是机遇又是挑战。这几年国家“校安工程”的实施,好多农村中学在校舍等硬件设
讨论了电容滤波单相整流电路中二极管电流的形波。给出了这种波形的理论推演和计算机模拟结果
本论文是一篇翻译实践报告。翻译的原文本是美国当代诗人、译者、兼小说家洁西·李·科切沃(Jesse Lee Kercheval)的小说《爱丽丝故事集》(The Alice Stories)的前三章。作者