论文部分内容阅读
实体关系抽取作为自然语言处理领域的重要任务之一,近些年来一直是学术界和工业界的研究热点。实体间语义关系的抽取,对于信息检索、自动问答、智能推荐等前沿领域都具有重要的意义。传统的实体关系抽取方法需要人工设计特征,耗费大量时间及人力,且容易导致错误传播问题。基于神经网络的方法可以自动进行特征学习,避免了大量人工标注工作。其中,卷积神经网络因其优秀的特征提取能力已逐渐被用于实体关系抽取任务中。然而,对于文本语料中较长的实体共现句,往往只能获取到局部的特征,并不能学习到长距离依赖信息。本文研究结合使用循环神经网络和卷积神经网络的实体关系抽取方法,主要工作如下:(1)针对简单卷积神经网络不能学习长距离依赖信息的问题,本文提出将擅长处理远距离依赖关系的循环神经网络GRU加入到卷积神经网络的向量表示阶段,通过双向GRU学习得到词语的上下文信息向量,为后续的关系模型训练提供更加丰富的特征。(2)针对卷积神经网络中普通最大池化无法捕获两个实体间结构信息的问题,本文提出在卷积神经网络的池化层采取分段最大池化方法,在获取实体对结构信息的同时,提取更细粒度的特征信息。(3)针对远程监督方法自动构建标注语料带来的错误标注问题,本文提出在关系抽取模型中加入基于句子级别的注意力机制,使正确表达对应关系的语句得到较高的注意力权重,同时降低错误标注语句的注意力权重,以此弱化错误标注语料对模型的干扰,提高实体关系抽取的准确率。本文分别设计了英文和中文语料上的实验验证,实验结果表明本文方法能有效提高实体关系抽取的准确率与召回率。