论文部分内容阅读
武器装备是衡量一个国家是否强大的指标。发展信息化武器装备,既是军事变革的基本内容,也是实现我军信息化建设目标的关键所在。知识图谱可以看作无数个实体关系的三元组构成,将世界上的知识链接起来组成一个巨大的图网络储存在计算机中,帮助人们在某种特定问题上做出正确的决策。本课题通过构建武器装备领域知识图谱,采集武器装备信息以及分析武器装备之间的关联,从而实现对军队综合战斗力的评估。构建武器装备知识图谱过程中,主要对武器装备实体抽取、武器装备实体三元组抽取以及武器装备知识图谱知识融合几方面进行研究。在武器装备的实体抽取方面,提出了领域BERT模型与嵌入字词向量及字转化率向量的BILSTM模型的融合模型对武器装备实体进行识别。首先,使用BERT模型在海量武器装备语料上进行预训练任务。其次,使用Word2vec模型训练字词向量提供先验语义信息,同时嵌入字转化率向量向模型输入更多的先验信息。最后通过分层实体提取器对不同类别的实体进行提取。实验证明,该模型编码能力强和先验知识充分,在环球军事网语料上F1值达到91.436%。在武器装备的实体关系三元组抽取方面,提出基于分层序列标注的实体关系三元组抽取模型(HSL)。HSL将实体关系三元组抽取任务转化为主语序列标注任务和宾语关系序列标注任务。首先,HSL采用带有残差链接的GLU膨胀卷积编码后生成中间向量,将中间向量经过Self Attention机制得出主语编码向量,解码出主语的标签序列抽取主语。其次,将主语作为先验特征和先前的中间向量再次经过Self Attention机制得出宾语编码向量。最后,采用代表不同主宾关系的全连接层提取出某个主宾关系的编码向量,解码出宾语的标签序列抽取出宾语。实验证明,HSL能有效的应对三元组重叠问题,并且效果超过了主流的实体关系三元组抽取模型,在军事语料数据集上F1值达到79.17%。在武器装备知识图谱知识融合方面,提出了一种基于Glove和Word2vec模型融合的同义词扩展方法。利用Glove模型和Word2vec模型对武器装备语料进行词向量训练,并通过欧式距离计算两个词向量的相似度得出同义词扩展结果,将两种模型的扩展结果取交集得出最终扩展结果。实验证明,该模型在同义词扩展方面是可行的,在38条武器装备属性同义词语料下F1值达到62.72%。同时,采用不同模型扩展出的同义词对武器装备知识图谱进行了属性融合对比,该模型融合属性次数最多,在武器装备知识融合方面效果较好。