面向领域知识库构建的垂直众包系统研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:BeThinking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断发展,领域文献和术语词典不断累积,将非结构化的领域文献转变为结构化的知识库日益成为知识工程的研究重点。然而,现阶段特定领域知识库构建往往缺乏相应的信息抽取和标注工具,已有的人工抽取和机器自动抽取方案面临着高额的人力成本或者抽取结果不佳的问题,并不能很好地满足知识库构建需求,因此需要将群体加工和机器抽取结合起来,构建一个面向领域知识库的垂直众包系统。本文主要研究了领域知识库构建的两个方面:一个是如何将领域已有的文献文档以及术语描述信息转换为该领域的知识元组,另一个是如何高效地利用领域文献来增量式地填充和丰富该领域的知识库。为了实现上述目标,本文设计并研发了一个面向领域知识库构建的垂直众包系统。该系统接受领域术语词典和文献作为输入,同时支持多人参与构建领域知识库。主要工作如下:1)为了获取足够多的领域文档以及相关领域术语,本文实现了一个自动爬取领域文档的简易爬虫框架,并且基于已有领域词典爬取了百度百科所有相关InfoBox信息,经过数据清洗后作为领域的预备知识。2)针对领域文档信息的预处理和领域元组信息提取问题,本文在哈工大LTP的文本信息处理方案的基础上,提出了基于多策略的元组信息提取方案。3)为了高效获取用户协作数据,针对领域文档的特性,本文提出了基于宏观任务的众包任务调度方案,并且基于谱方法优化改进了目前常用的众包质量控制策略。4)面向地质科技领域知识库构建,设计实现了该领域的垂直众包系统,提供了文档信息管理、在线协作编审、知识库众包任务管理、知识库检索以及用户信息管理等功能。
其他文献
传统的数据挖掘方法主要是找单个实体属性之间的关联,但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体,它们之间的边表
最近几年,移动对等网络(MP2P)逐渐成为了移动通信领域的研究热点,正引起学术界和产业界的关注,成为如今计算机和通信领域研究的热点之一。MP2P主要的研究方向是在无线移动网络环境
现有的物联网应用大多数都是局限于同一有限的区域内,应用相对比较固定,且同时由于缺乏灵活性而不便于统一管理多个物联网。随着物联网应用的普及,寻找一种应用更灵活、管理更便
人脸识别是一项挑战性的研究课题,以致得到了诸多不同学科领域研究人员的青睐。人脸识别技术广泛运用到国家公共安全、社会安全及商业等领域,如公安刑侦破案、监控、信息安全
蚂蚁个体智能十分低下,但整个蚁群却拥有惊人的智能,能够完成远远超出蚂蚁个体能力的复杂任务。通过对蚂蚁社会性行为的观察发现,蚁群通过一种媒介质机制来协调蚂蚁个体的行为,使
双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本,通过对互译文本的处理,建立实
基于数字高程模型DEM的数字地形分析已成为地理信息系统GIS的重要组成部分,广泛应用于测绘、遥感、城市规划、军事作战等各个方面,其中的特征地形要素分析研究尤为活跃。  
随着Web信息技术的不断发展,网络信息采集技术也日趋完善,作为许多Web信息服务的基础及重要组成部分,它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网
随着计算机与网络技术、移动通信技术及移动嵌入式技术的发展,移动计算技术已逐渐将人们从具有时空局限性的、传统的桌面计算中解放出来,使得人们能够以更为自然、本能的方式
随着NAND闪存智能移动终端的广泛应用,NAND(?)闪存上的数据恢复技术也日益彰显其重要性。与传统的磁存储器相比,NAND闪存一方面在硬件上具有耐擦写次数低且不支持原地擦写的