众包平台下基于规则的人类知识汇集方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:swatsee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能相关技术的发展,人们对于数据挖掘算法的研究越来越深入。当前,数据挖掘方法主要可以分为两类,一类是纯机器完成的算法,这种类型的算法往往能够很好的利用机器在存储、计算等方面的优势,较为快速且低成本的完成任务。但是这类方法也表现出越来越多的局限性,不能很好地处理一些复杂的问题,尤其是那些混杂了人类经验的问题,比如现在对于语义的理解依然是自然语言处理方面的一个鸿沟;另一类则是尝试通过将人的知识与计算机的能力结合起来,这方面一种广泛使用的方法是使用从专家收集相应的规则来进行相应的挖掘任务,然而这种方法代价过于昂贵并且由于领域专家的稀缺性难以扩展。规则作为知识的一种有效表达形式,传统的规则学习算法从数据中产生一些规则,然而,这种方式产生的规则一般质量不佳,甚至在较大规模的实际应用中无法使用;而利用领域专家提供的规则虽然能够达到非常好的效果,但是对专家存在严重的依赖,严重制约了这种方式的发展。众包作为一种能够利用群体智慧完成复杂任务的方法得到了广泛的研究。然而,由于众包工作者往往是一些不同背景的、知识水平差异极大的人群,如何高质量地汇集他们的知识是一个非常有挑战性的问题。针对上述问题,本文进入了深入系统的研究,主要工作和贡献包括如下几个方面:·提出了基于众包的规则生成和质量评估模型。首先,提出了一个框架用于收集众包工作者的知识和经验以产生规则,并同时通过对众包工作者的训练提高他们提供规则的质量。然后,设计了一个在线的规则收集系统用以激励和训练众包工作者产生初始规则。接着,我们针对情感分析应用,提出了一个规则质量评估模型来衡量规则的质量。·基于主动学习的众包工作者训练模型。众包工作者的能力直接影响到众包系统的表现,由于众包平台中的工作者往往缺乏合适的专业技能,因此对众包工作者的训练显得尤为重要。针对众包工作者的训练问题,本文提出了一种基于主动学习的模型,可以增强众包工作者的相关专业知识,同时高质量完成相应的任务。·设计了针对众包产生的规则的精炼算法。首先,通过冗余消除和规则细化,对前面获取的初始规则进行预处理,消除从众包工作者处收集的冗余规则;然后,通过一个贪心规则集提取算法得到最为有效的核心规则集。实验结果显示,经过提炼的核心规则集,核心规则集可以在较少的规则数量下达到与全部规则类似的效果。
其他文献
以二甲胺,四甲基溴化胺为相转移催化剂,水为溶剂,过量3%~5%的对苯二氯苄在75℃~90℃时滴加30%的氰化钠水溶液进行反应,pH值保持在8~9,然后减压蒸馏粗品可得96%的对苯二乙腈,收率
自2008年开始,我校开始探索“协进课堂”模式建构,着力打造科学融合教师、学生多元智能,充分释放教师和学生的学习潜能,在“自主学习”“多元探究”“引领提升”中,积极提升
纳博科夫的<文学讲稿>是他于康奈尔大学讲授欧洲文学大师课程时讲稿的整理集结,而金圣叹积十数年心血评点的贯华堂本<水浒传>,张竹坡评<金瓶梅>基本上都是此评一出,诸本尽废.
迟子建作为著名东北籍作家塑造了一系列苏俄人形象。这些异族形象一方面在东北作家作品中具有别样特色,另一方面也与自我形象形成互动,对于反观自我形象及东北文化特质具有积
目的:探讨基于循证护理的细节化管理在提高神经外科手术护理质量中的应用效果。方法将本院神经外科300例手术患者及其手术医生作为调查对象。2014年4月至2015年7月时段实施基
区域潜在吸收能力和现实吸收能力对于提高区域竞争力和经济水平具有重大的作用。本文分析区域创新系统中知识吸收能力的影响因素,建立评价知识吸收能力的指标体系,运用因子分
<正> 培养学生能力,提高学生素质,是当今社会普遍关注的热点问题,也是教育工作者潜心研究和深入探索的重要课题。在教学过程中,越来越多的教师能够从知识传授、技能培养和习
对主变压器出现假油位的现象,经现场测试和理论分析指出产生的原因和采取的处理措施。
吸收能力是外部学习和创新溢出发生的重要前提,本文将区域吸收能力在企业微观层面作为一个多维度变量,分解为人力资本、研究开发(R&D)活动和产品技术3个维度,探讨吸收能力中的构