论文部分内容阅读
实体关系提取是信息抽取领域的重要技术之一,它旨在以三元组的形式抽取句子中已标注的实体对之间的关系,有助于后续构建知识图谱等任务。同时,实体关系提取在篇章理解和机器翻译等方面都有重要的应用。然而,传统有监督实体关系提取方法需要大量的人工标注数据集以使模型得到充分的训练,而人工标注工作不仅费时费力,还需要标注人员具有一定的专业领域知识,使得标注工作进展十分困难。传统远程监督方法虽然能自动地扩张数据集,但是数据集往往充满噪音,影响模型的训练。深度学习技术的兴起与成熟为自然语言处理领域的发展带来了新的可能。当前,词嵌入和神经网络等深度学习方法在本文的特征抽取上有显著的效果,许多学者开始从深度学习的角度对实体关系提取任务进行建模。如何使用深度学习解决远程监督方法中的噪音问题是一个亟待解决的研究难点。本文对原始远程监督方法中的假设予以改进,并设计了相关深度学习框架进行实体关系提取。具体地,本文工作主要分文以下三个部分:首先,本文针对传统远程监督实体关系中假设可能带来的问题,提出了基于语义的改进假设,从句子语义信息的角度来考虑关系标签的生成,减少了原始假设可能引入扩充数据集的错误标注和漏标注问题。其次,本文根据改进语义假设提出了基于聚类的远程监督实体关系提取方法ClusteredDS(ClusteredDistant Supervision),对句子的语义信息进行聚类并重新标注句子的关系标签,旨在提高数据集的整体质量。最后,本文从神经网络的角度来实现改进语义假设的机理,提出了 Bi-GRU+Clustered DS(Bi-directional Gated Recurrent Unit + Clustered Distant Supervision)远程监督方法。该方法使用Bi-GRU网络提取句子的语义信息,通过句子的语义靠近,使用数据集的语义中心来影响每个句子的最终语义编码。在通过Freebase知识库与纽约时报数据集对齐而产生的数据集上的实验结果表明,本文提出的Clustered DS方法有效地提高了数据集的质量,能够缓解实体关系提取方法在噪音忍耐度上的压力。进一步实验也表明本文提出的Bi-GRU+ClusteredDS方法有效地避免了传统非神经网络方法中的误差,从深度学习的角度构建了基于改进假设的实体关系提取方法,在准确率和召回率上表现优异。