论文部分内容阅读
在军队现代化和信息化建设进程中,军事知识图谱是未来智能化军事信息系统的重要支撑,而军事实体关系抽取是构建军事知识图谱的关键子任务。目前,实体关系抽取主要有基于机器学习和深度学习的方法,其中有监督的实体关系抽取需要耗费人力标注数据,而无监督的实体关系抽取效果不佳。基于远程监督学习的实体关系抽取是通过利用小规模专业知识库进行实体关系启发式匹配,然后进行模型去噪,最后得到实体关系抽取分类的结果。这种方法可以很好的应用在实体名称工整、实体间关系少、保密性要求高的军事实体关系抽取领域,但目前远程监督方法大多在英文语料上应用,对于中文军事语料支持少,而且在军事语料上抽取效果也不太理想。本文首先构建小规模军事实体关系知识库,然后研究如何在军事语料上应用远程监督进行军事实体关系抽取,并构建性能优良的关系去噪模型,提升中文军事实体关系抽取效果,为自动化抽取军事知识提供新思路。具体研究内容如下:1)利用大规模通用知识库构建军事实体关系知识库。基于远程监督的实体关系抽取方法需要一个小规模的专业知识库作为支撑,而目前没有一个高质量的军事实体关系知识库用于远程监督实体关系抽取。本文从大规模中文知识百科CNDBpedia中获取军事知识,通过关系定义、数据集划分、数据清洗、军事实体关系信息切分、军事知识库构建等步骤流程,形成一个包含100多万个实体,300多万条关系的小规模军事实体关系知识库。2)基于远程监督方法构建军事实体关系抽取模型。对中文军事语料数据,通过启发式实体关系匹配得到的实体关系中存在大量错误关系(也称为噪声数据)。针对这一问题,本文提出一种基于PDCNN(分段膨胀卷积神经网络)的多注意力机制实体关系去噪模型(PDCNN_MARE),以去除启发式匹配中产生的错误标注,其中模型比同类方法提升了3%左右。3)提出基于实体名称相似度的新知识发现方法来扩充军事实体关系知识库。作为远程监督的重要支撑,军事实体关系知识库的大小受限于原始构建数据中军事类关系数据规模大小,从而导致在实体关系启发式对齐时,部分存在关联关系的实体对不能匹配到对应的关系。因此,本文结合军事实体名称结构形式规律的特性,提出基于实体名称相似度的新知识发现方法,用于扩展军事实体关系知识库。4)构建军事实体关系抽取web服务系统。为了将军事实体关系抽取方法更好的应用,在Flask框架下用python开发出军事实体关系抽取Web服务系统,其中包括模型训练、模型评估、模型应用等模块。