论文部分内容阅读
与传统的信息管理手段相比,知识图谱以其强大的语义处理与开放互联能力,可帮助人们迅速梳理目标知识之间的逻辑关系,对基于知识的智能推理实现有良好效果。与通用知识图谱相比,特定领域知识图谱以其知识的深度与完备性、数据模式的丰富和严格性以及描述的高准确性等优点,通常用于各种复杂的辅助分析或决策支持。本文在调研和分析了已有知识图谱构建关键技术的基础上,以构造舰船知识领域知识图谱为依托,对特定领域的知识图谱构建中命名实体识别、关系抽取以及知识融合等关键技术展开深入研究,本文的主要内容包括:(1)针对舰船知识领域命名实体存在嵌套以及长度过长等问题,提出基于字向量层叠模型的命名实体识别算法,首先通过高低层网络结构完成序列标注以及序列更正工作,最后利用条件随机场对上层输出序列标签进行校准并输出命名实体识别结果。实验表明本文所提出的基于字向量的层叠模型复杂命名实体识别取得了较好的效果,其F1值(F1值为加权调和平均值)达到了 87.93%。(2)针对舰船知识领域关系抽取中语料过少、深度神经网络无法学习高位数据特征等问题,根据该领域文本数据特点,本文提出了基于规则和触发词的混合关系抽取方法,对于半结构化文本数据采取基于规则的方式,利用正则模块与依存句法技术完成数据关系抽取工作。对于非结构化文本,采取基于触发词的抽取算法,将文本词汇与触发词词典中的词语进行匹配得到相对应的关系类型,最终实现五种以上实体关系的抽取,其抽取效果良好。(3)针对舰船知识领域中关系抽取的误差累计问题,本文将实体识别以及关系抽取模型进行融合,通过该实体-关系联合方法,实现原始语料到结果抽取的端到端学习,能够有效的减少误差累计的问题,为用户提供了很好的使用体验。(4)针对已抽取的知识存在严重冗余以及异构等问题,本文采用表示学习知识图谱的实体对齐算法来进行知识融合,即利用向量的相似度计算完成知识的融合,并采用Neo4j图数据库来完成存储。本论文通过对舰船知识领域知识图谱构建关键技术进行深入研究与改进,提高了命名实体识别和关系抽取的精准率以及F1值,并对图谱冗余知识进行实体对齐等知识融合工作,为构建高质量的领域知识图谱奠定了基础。