大规模开放式信息抽取系统的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fengdl0040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中存在大量的使用自然语言表达的知识。信息抽取的任务是将文本的内容转换为结构化的知识库。传统的信息抽取系统,使用规则匹配的方法从特定领域、特定的文本中抽取特定的知识。这样的系统有着许多的局限性,例如要获取新的知识,需要设计新的抽取规则。从互联网中抽取有效信息的任务给已有的信息抽取系统带来了许多挑战。因此,设计并实现一个能够从开放类别、开放领域的开放式信息抽取系统是有必要的。本文针对大规模的互联网数据,设计并实现了一个开放式的信息抽取系统,来完成信息抽取的命名实体抽取,实体关系抽取以及实体链接的抽取等任务。系统主要分为三大模块:(1)任务管理模块;(2)信息抽取模块;(3)信息管理模块。任务管理模块包括数据上传、任务发布、任务启动和任务实时监控等功能。信息抽取模块首先从网页中抽取出有效文本,然后对抽取出的文本进行命名实体、实体关系和实体链接的抽取。信息管理模块负责信息抽取结果的持久化和可视化。本文根据软件开发流程,依次从需求分析、系统设计和系统实现以及系统测试这几个方面,对大规模开放式信息抽取系统的设计和实现进行了详细介绍。该系统是在一系列的开源自然语言处理工具的基础上,进行开发和实现的。系统主要使用信息队列和多线程技术,能够并发处理大规模文本语料,并且能够从中抽取出大量的命名实体、实体关系和实体链接。除此之外,本系统还实现了包括分词、词性标注、关键词抽取等常见的中文文本处理可视化功能。系统提供了良好的可视化的操作界面,使用者可以比较直观地理解中文文本的处理结果。
其他文献
<正>通常我们翻阅一份公司刊物,都会从这份刊物的文字传达、资讯组合、图案设计、栏目编排、文本印刷等等综合感观要素中,感知到这家企业的目标追求、价值理念和行为责任。公
会议
目的探讨卡培他滨治疗晚期胃癌对肠黏膜屏障功能及血清肿瘤标志物水平的影响。方法选取晚期胃癌患者116例,根据化疗方案的不同分为研究组与对照组各58例。对照组行常规化疗,
霍尔顿的少年人生是一个深刻的隐喻,关于转折点或者门槛的隐喻。"阈限"是霍尔顿人生成长的一个转型期。阈限有长度——时间的维度,宽度——空间的维度,高度——现实的维度。
自五四运动以来,中国音乐教育一直沿用西方音乐体系,中国音乐理论逐渐失去主体性,"欧洲中心主义"思想逐渐根深蒂固,中国音乐理论的相关课程、书籍鲜少在高校教育体系中出现。
<正>随着我国的资本市场和货币市场逐步与国际接轨,银行和投资者的经营理念以及操作方式将发生变化,投资者、债权人以及其他利益各方,将越来越多地依据公开会计信息了解上市
汽车ABS电磁阀的响应时间是影响防抱制动系统控制精度的一个重要因素,对电磁阀的空载响应测试是检测其是否合格的一个重要环节。论文利用电流曲线的理论依据设计了针对汽车AB
本文以一名英语学困生为例,分析了学困生的特征;通过日常交流、量表检测分析成因,并进行了诊断;以教学、心理等环节施加干预,矫正学生的学习习惯,改善其英语学习行为。
目的探讨糖尿病慢性肾脏疾病(CKD)患者血清分泌型卷曲相关蛋白5(SFRP5)与早期糖尿病肾病(EDN)的相关性。方法选择新诊断单纯T2DM患者43例、EDN患者42例,另选择健康体检者(NC)
学界对学习者语用能力的重要性基本达成共识,但对于如何提高语用能力众说纷纭。本项研究提出通过戏剧培养学生的语用能力。戏剧与语用能力有天然联系,将戏剧引入英语课堂将提
本文通过女性主义视角,对霍桑《红字》中女主人公海斯特·白兰进行了深入分析。海丝特,作为一个通奸的罪者,被抛在社会的边缘,而作者霍桑却把她放在小说的中心位置,赋予她主