论文部分内容阅读
面向开放领域文本的实体关系抽取是一项具有重要研究价值的自然语言处理任务,它的提出是为了从海量文本中高效准确地抽取有价值的实体关系信息。远程监督实体关系抽取方法利用远程监督假设来自动标注大量句子,在这些数据上构建模型,能够有效地避免有监督模型数据集规模过小、领域依赖性强的问题,因此更适用于开放领域文本。然而,由于标注数据中同时包含两个实体的句子并不一定就表达了这两个实体的关系,导致噪音句子的产生,给远程监督实体关系抽取模型带来了挑战。基于句子层面注意力机制的分段卷积神经网络(Piecewise Convolutional Neural Network With Sentence-level Attention,PCNN+ATT)模型是目前常用的远程监督关系抽取模型,它为句子分配权重以抑制噪音句子的干扰,但仍存在两个不足。其一是采用PCNN模块作为句子编码器,所提取的特征仅包含局部的上下文信息,会导致语义信息的丢失;其二是忽略了词语层面的注意力权重,会导致句子向量对句子语义的表达不够准确。针对这两个不足,本文提出了基于层次化注意力机制的双向GRU(Hierarchical Attention-based Bidirectional GRU,HA-BiGRU)神经网络模型。针对第一个不足,HABiGRU模型采用双向GRU模块取代PCNN,减少句子向量中语义信息的丢失;针对第二个不足,HA-BiGRU模型采用层次化注意力机制,结合词语和句子层面的注意力机制。为了进一步缓解噪音问题,提高HA-BiGRU模型的效果,本文利用句子中实体对的最短依存路径与关系标签的共现概率,提出了两个去噪策略:从数据方面,本文通过设置共现概率阈值,将共现概率低于阈值的关系标签所标注的句子视为噪音数据并过滤,以改善标注数据的质量;从模型方面,本文将最短依存路径对应的关系标签共现概率向量串联到HA-BiGRU模型中双向GRU编码得到的句子向量中,作用在于提高句子与关系标签的相关度计算的准确性,为句子分配更合理的权值,抑制噪音的影响。本文在Freebase+NYT远程监督标注数据上进行了对比实验,以验证所提模型和两个去噪策略的有效性。实验结果表明,本文所提出的HA-BiGRU模型的效果优于PCNN+ATT模型,并且应用两个去噪策略能够有效减少噪音的干扰,进一步提升HABiGRU模型的效果。本文还通过案例分析验证了层次化注意力机制的有效性。