论文部分内容阅读
金融知识图谱是以图的结构展示和存储金融领域实体及其关系的领域知识图谱。构建金融知识图谱的关键是从公告、研报等文本数据中抽取实体及关系。有监督学习的关系识别模型可以有效地提取语义特征但是需要大量的已标注语料。众包构建和远程监督方法是语料标注的常用方法,但远程监督方法会引入噪声数据,如何改进远程监督以减少噪声数据是本文需要解决的问题之一。此外,公告和研报等金融领域的语料多为长语句,对这些语料的处理存在长距离依赖和长语句编码语义丢失的问题,如何选择合适的算法解决这些问题以构建关系识别模型,是本文需要解决的问题之二。针对上述问题,本文以实验室承担的实际项目为背景,在对知识图谱构建技术、深度学习、关系识别等相关技术深入研究的基础上,提出并实现了基于上下文相似度降噪的改进远程监督方法(简称CSD)以及基于BiLSTM和注意力机制的关系识别模型(简称DRCM)。结合CSD方法和DRCM模型,本文设计并实现了一个金融知识图谱原型系统(简称FKGS)。FKGS包括语料标注、关系识别、实体关系存储等功能模块。测试情况表明,该系统是可行及有效的。本文的工作要点与创新点如下:1)CSD及其语料标注。远程监督标注语料的方法会引入噪声数据,本文提出并实现了一种基于上下文相似度降噪的改进远程监督方法CSD。首先结合远程监督方法和多示例学习方法获得初始标注语料,然后根据上下文相似度比较对初始标注语料降噪,最后迭代选取其中高置信度的语料并对其标注。实验结果表明,使用CSD方法标注的语料训练的分类器的准确率相比一般远程监督方法提高了6%。2)DRCM及其关系识别。对公告、研报中常见的长语句进行关系识别时存在长距离依赖和长语句编码信息丢失问题。在对比分析相关算法的基础上,本文使用BiLSTM对语句进行编码以解决长距离依赖,采用注意力机制降低训练集中噪声数据的影响以及长语句编码丢失语义的影响,由此提出并实现了关系识别模型DRCM。实验结果表明,在SKE数据集上该模型的F1值相比使用单向LSTM的模型高出1.7%,相比没有使用注意力机制的模型高出3%。3)基于CSD和DRCM的FKGS系统原型实现。在1)和2)工作的基础上,本文设计并实现了FKGS原型系统,该系统包括基于AipNlp实现的命名实体识别、基于CSD实现的语料标注、基于DRCM实现的关系识别以及基于Neo4j实现的实体关系存储等功能模块。目前从近三年的近200G的公告和研报中抽取得到金融领域实体59738个,实体之间的关系数共71056条。