论文部分内容阅读
实体关系抽取是自然语言处理领域的重要基础技术之一,同时也是信息抽取的一个关键子任务,有着重要的研究价值和广泛的应用场景。近年来,深度学习方法在实体关系抽取领域中得到了广泛的应用。不同于基于规则和基于统计的方法,深度学习方法能够借助神经网络自动抽取文本特征,在模型建立的过程中不断地进行特征的学习,减少了人工设计特征的不完备性。实体关系抽取任务主要采用循环神经网络和卷积神经网络模型架构,由于循环神经网络在对句子进行建模时会丢失部分局部特征,而卷积神经网络能较好地将句子的局部信息整合为全局信息,因此,本文选用卷积神经网络作为基础模型。经过调研发现基于卷积神经网络的实体关系抽取方法面临如下挑战:深度学习方法需要大量的标注数据做为支撑,实体关系标注数据的匮乏是目前面临的一大难题。另一方面,神经网络模型中使用注意力机制能够使关系抽取的性能得到进一步的提升,但是现有的注意力机制通常关注词汇级等低层次的语义特征,缺乏对句子全局语义信息的关注。针对以上挑战,本文提出了相应的解决方案。本文主要的创新点和贡献如下:(1)提出了基于高层语义注意力机制的卷积神经网络实体关系抽取模型(PCNN_HSATT)。在卷积神经网络的分段最大池化层后添加了注意力机制层,以关注句子的全局信息。由于不同的卷积核可以抽取不同层次的句子全局信息,使用注意力机制可以合理地为其分配权重,获得更多对关系预测有贡献的特征。(2)在网络的向量表示层中融合了外部语义信息——知网的上位词信息。对于句子中的实体,除了词向量和位置向量特征外,还引入了其在知网中的上位词特征,丰富了向量表示层的语义信息,提高了关系抽取的F1值。(3)针对中文领域实体关系标注数据较为匮乏的问题,本文提出了一种融合同义词词林,并添加句法约束的数据增广方法。该方法将COAE2016训练集从988句扩充到11 328句。本文针对所提出的方法设计了对比实验,实验结果表明本文提出的PCNN_HSATT模型与PCNN等现有模型相比在实体关系抽取任务上更有优势。本文还利用所提出的数据增广方法获得了大量有效的标注数据,并在实验中验证了其有效性。