论文部分内容阅读
近年来,随着计算机性能的不断提升与互联网文本所蕴含的信息的快速增长,将Web信息结构化、知识化,构造由概念、实体、关系所构成的语义网络——知识图谱,已成为大势所趋。根据适用范围的不同,又可将知识图谱划分为通用知识图谱和领域知识图谱。自2012年谷歌将知识图谱应用于搜索引擎以来,通用知识图谱在工业界和学术界均取得了长足的进步。然而,相较于通用知识图谱的发展,领域知识图谱的研究仍有待展开。由于领域知识图谱适用范围和构造要求的特异性,始终面临着缺乏标注语料,构建过程人工程度过高等问题。因此本文以构造金融领域知识图谱为依托,探究知识图谱自动构建方法,考虑到命名实体识别和关系抽取是构建知识图谱过程中最为重要的工作,本文主要针对此两方面进行算法改进,本文的主要贡献如下:针对特定领域知识图谱构造问题,以构建金融知识图谱为例,探究了构建领域知识图谱的一般性方法,建立了以包括分布式爬虫、众包标注平台、领域命名实体识别算法、领域关系抽取算法等一整套完整的领域知识图谱构建流程。针对金融领域命名实体识别问题,本文以CRF和Bi LSTM算法为基准,探究提高领域命名实体识别的方法。针对标注语料较少的问题,采用主动学习与CRF结合的方法,在增加少量人工标注语料的情况下,将CRF识别的F值提高到91.46%。而针对训练数据较少,神经网络训练不充分的问题,本文采用领域未标注文本,预训练词向量的方式,作为Bi LSTM+CRF模型的输入。大幅度提升了Bi LSTM+CRF模型的效果,取得了91.76%的F值。针对金融领域关系抽取的问题,本文对合并、收购、持股、转让、投资等五种关系进行抽取,通过构建词特征、位置特征、语法特征等方式,将其抽象为机器学习分类问题。对比了多种传统的机器学习分类算法,并采用深度随机森林的方法,挖掘关系间深层次的组合特征,在所有分类任务中F值均有显著的提升。