论文部分内容阅读
知识图谱是以实体作为顶点,实体间关联作为边,描述静态知识,但现实世界中知识是动态变化的,记叙文是记录动态知识的主要载体。针对记叙文的知识化抽取,本文设计并实现了一个事件知识图谱平台,能够将知识从非结构化文本形式转化成以事件为单元的图谱形式,描述现实世界中事物之间的关联。事件知识图谱平台由数据采集平台、图谱构建平台、并行计算平台及标注平台组成。数据采集平台负责从互联网中获取指定事件相关的新闻文本、追踪热点事件、自动更新数据。图谱构建平台将事件信息从文本形式转化为图谱形式。并行计算平台提供并行计算能力,承载图谱构建过程中的计算任务。标注平台为标注人员和行业专家提供规则制定和样本标注作业平台,确保平台能够适应不同的业务场景。平台的主要工作流程分为文本数据采集、元事件抽取及融合、事件知识图谱构建及可视化。首先通过数据采集平台获取事件相关文本,再利用自然语言处理技术分析文本,从中抽取元事件信息,然后对元事件信息进行整理和融合,最后将事件组织为图谱形式,完成事件知识图谱构建,实现将知识转化为以事件为核心的图谱形式。本文的研究成果包括以下四点:(1)针对数据采集时可能出现搜索不准确导致结果中出现无关文本的问题,提出一种基于篇章间关联的事件文本过滤算法,利用文本中的实体信息量化篇章间关联,再根据篇章间关联网络过滤噪声文本。(2)在事件融合过程中,针对由于中文表达灵活性导致的表达方式不一致问题,提出了事件元素格式化方案,消除由于表达方式不同所造成的影响。提出了基于事件相似性的元事件融合算法,去除重复事件,降低冗余。(3)在事件知识图谱构建时,定义了事件知识图谱层次结构,根据事件所在业务场景的事件范畴,将事件信息组织为结构化、层次化的图谱形式。(4)为了满足大规模事件知识图谱的存储和查询,设计并实现了一种事件知识图谱专用图数据库,能够将图谱保存在分布式环境中,并封装了相应的查询接口实现以事件为输入,以图谱为结果的查询,与并行计算平台相结合,为并行计算提供数据输入源和存储地址。最终,结合前端技术,实现图谱可视化,经过测试,本文实现的平台能够构建出事件知识图谱。