众包数据标注质量的改善算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xiapehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多以数据为支撑的研究领域的发展及应用离不开大规模的标注数据,特别是机器学习等人工智能领域。近年来,利用众包系统收集标注数据正变得越来越受欢迎,它能方便地帮助研究者快速和低成本地获得大量的标注数据。但是由于众包标注者的各种不稳定因素,并不能保证标注者标注标签的质量。目前为了改善众包数据的标注质量,研究者们已经提出了一些有效的标注数据的标签真值推断算法。本文针对上述问题提出了两种比公认的基准算法表现更好的算法,主要研究工作总结如下:(1)分析了导致众包数据标注质量低下的原因,并系统地定义了旨在改善众包数据标注质量的标签真值推断问题。探讨了一些典型的基准算法的基本原理和实现,为本文提出的算法和对比实验提供基础。(2)提出了基于黄金标准数据和激励策略的标签真值推断算法。该方法在使用黄金标准数据的条件下,全面考虑了实际众包环境中存在的标注者的类型并过滤了低质量的标注者。其次针对同样基于黄金标准数据的ELICE算法的不足点,合理地估计了标注者自身的标注能力。最后通过改善激励机制策略来增强标注者动机,进一步提高算法的效果。(3)提出了基于标注者能力和标注难度的标签真值推断算法。该方法并不依赖黄金标准数据并且适用于多标签标注任务。它主要考虑了标注者能力和标注实例难度建立了有效的多标签任务标注过程的概率模型,并合理地估计了标注实例的难度。最后采用EM迭代算法求解标注模型的极大似然估计,并推断出标注数据的标签真值。本文利用开源实验工具在多个公开数据集上对本文算法和其它基准算法进行对比实验。通过实验结果与分析,验证了本文提出的两种算法的有效性和相对于其他一些基准算法的优势。
其他文献
随着社会发展和人民生活水平的日益提高,环境问题越来越引起人们的重视。这其中大气污染是一个较为突出的问题。大气污染物又分为颗粒污染物和气态污染物,而气态污染物主要由
目的研究越鞠丸石油醚部位是否具有快速抗抑郁潜力,并对其有效剂量及潜在的生物学机制进行了探讨。方法将44只昆明种♂小鼠随机分成空白组(生理盐水组)、越鞠丸石油醚部位(YJ
<正>“料”是两岸娱乐报道中对于“新闻”的一种特定指称,也是现代娱乐节目的主要卖点和核心内容,本身当然就是新闻的一种;但这种“新闻”往往与硬新闻无关,而是娱乐新闻中特
淡如何建立财政内部控制系统评价标准赵玉华财政内部控制系统评价,必须有其评价的依据、标准或尺度。因此,建立理想的、标准的内部控制系统模式,是财政内部控制系统评价的首要环
乳腺增生病(hyperplastic disease of breast,HDB)是一种乳腺的慢性良性增生性疾病,在妇女中发病率很高。乳腺X线摄影、CT、磁共振及超声对其有很好的诊断价值,本文综合文献现
财政部于2006年发布了《企业会计准则—无形资产》,新准则已于2007年1月1日起正式实施。伴随着知识经济时代的到来,各个企业都将重点放在了高新技术的开发与研制领域问题上,
陕甘宁边区是中国共产党领导下的模范抗日民主根据地。在多种因素的作用下,边区社团迅速成长和发展起来,并具有一系列明显的特征。边区社团在党和边区政府的领导下,通过开展
<正>作为一名管理者,既要处理企业内部的各种矛盾,又要协调繁杂的外部关系,多数时间则处于浮躁状态。在浮躁的心态下,不可能进行管理悟性的修炼。由此看来,先通过归零的管理
期刊
"大数据时代"教育教学与信息技术相融合是必然趋势。与信息技术融合后,教育教学不仅在形式上突显出新技术,教育教学的本质、价值和功能都相应地发生了巨大的改变。然而,与两
随着计算机图形学和计算机视觉技术的发展,光场开始进入人们的视线并被迅速应用于各个领域.然而光场的获取需要大量的图像,具有数据量大,获取成本高等特点,因此学者们越来越