基于语义依存网络的知识抽取系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,互联网已逐渐演变为一个巨大的分布式资源库,要想从中精准快速地获取目标信息是非常困难的,近年来为提高网络资源查询的效率,研究者们构建了一些结构化知识库,例如Wikipedia、YAGO、Freebase等。但由于互联网资源的爆发式增长特性,从半结构化的百科类页面抽取的知识已难以满足人们在深层知识查询方面的需求,因此开放域知识抽取技术成为了知识工程相关的众多领域中一项重点关注的研究课题,该技术目前还面临着结果准确率较低、查询命中率不高等问题,因此设计一个高效、完备的知识抽取方法是非常必要的。本文提出一个多层图式结构的语义依存网络,通过对互联网非结构化文本的统一建模,利用分布式并行计算框架从中快速准确地抽取知识构建知识库。语义依存网络能够捕获原始文本完整而全面的语义信息,它首先基于特定数据结构“多阶语义树”对原始文本进行多阶语义解析,标注文本各个成分的词法和句法信息,其次通过名词短语分块技术实现各成分内部的语义单元抽取,最终基于原文语序和句法结构进行实体关联,通过建立文本语义单元之间的相似性关系和类属关系进行层次划分,得到语义依存网络。因此该网络不仅能够表达文本的顺序关系和句法结构,而且能够展现文本的概念抽象层次。此外,语义依存网络能够基于外部先验知识进行横向和纵向语义扩展,本文使用WordNet和Wikipedia作为标准外部知识源支撑语义扩展的过程,经过基于语义流畅度检测的扩展验证,向网络中添加原始文本蕴含的潜在信息,因此语义依存网络具备较强的知识推理能力。本文基于语义依存网络设计了一个分布式知识抽取与知识融合的处理框架。通过对语义依存网络中语义子图的划分和遍历,能够便捷地抽取到网络中以结构化形式蕴含的显性和隐性知识。通过设计基于词汇相似度检测的共指消解算法和基于语境相似度检测的实体消歧算法,完成知识三元组内部实体的实体链接和等价性判断,从而进行知识冗余和知识不一致性的处理,完成知识融合。最终通过马尔科夫聚类算法按照关系类型对知识三元组聚类,并使用中心知识对簇内三元组进行置信度计算,经过筛选生成一个大规模高质量的知识库。最后本文根据上述技术方案设计并实现了一个分布式知识抽取系统,完成了基于语义依存网络的快速知识组织、推理、抽取与融合。经过在NYT、Wiki和Reverb数据集上的系统性能测试以及与其他先进知识抽取系统的比较,证明本文方法能够提升约15%的准确率,抽取结果数量平均增长约1.0倍。
其他文献
自然语言处理是实现计算机与人之间使用自然语言进行有效通信的科学领域,可以提高计算机的易用性和人机交互的友好性。自然语言处理包含机器翻译、语音识别、拼写检查和语音合
数据资源的集成是当今企业信息化面临的一个主要问题,如何提高数据集成方案的集成和扩展能力,降低管理部署的复杂性,是开发数据集成产品的关键。Web服务基于标准Intemet协议提供
位置服务和移动社交网络融合产生的位置社交服务已影响到人们的日常生活,其提供好友发现及位置信息的社交分享,支持基于位置的新型商业应用。从服务供应商角度,用户提交的所在位
远程网络教学以计算机网络技术、多媒体技术为基础,以决策科学、系统科学和人工智能为指导,采用远程交互式多媒体教学手段,实现了跨越时间和空间的教学活动。本文结合成人高
本文在用泛系方法论对集合论、粗糙集研究的基础上,从理论层次对序关系进行了深入的研究。从认识世界到泛系尺度、从尺度转化到序关系转化,深入探讨了排序的实质及其根本来源
缺陷跟踪系统是一种重要的测试管理工具,它贯穿于整个软件开发的生命周期,具有涉及角色多,处理流程复杂等特点。目前,很多的缺陷跟踪系统是构建在数据库管理系统之上,按标准
由于嵌入式系统在军事、工业生产和生活中被越来越广泛地应用,嵌入式系统的复杂程度不断提高,对嵌入式系统与非嵌入式系统交互能力的需求也在不断上升。其中嵌入式操作系统已
MDA是国际对象管理组织(OMG)为应对业务和技术的快速变化提出的一种开放、中立的系统开发方法和一组建模语言标准的集合。MDA以模型作为系统开发活动的主要制品,将一个应用或
传统的网络设备大多采用基于GPP或ASIC的嵌入式处理器。随着网络流量的迅速增长和网络业务的多样化,它们在性能或灵活性上已难以满足应用需要。为此,一种并行可编程的网络处理
模型驱动体系结构是对象管理组织针对软件产业所面临的压力提出来的一种新的解决途径。MDA的关键之处是,模型在软件开发中扮演了非常重要的角色。整个软件开发过程是由对软件