论文部分内容阅读
随着知识图谱技术的发展与应用,作为构建和补全知识图谱的重要环节,关系抽取算法在过去的几年中发展迅速。由于不需要花费大量的人力和时间就可以获得大规模的标注数据,远程监督关系抽取逐渐受到研究者的青睐。然而,由于假设过于强烈,远程监督在标注数据时缺乏对自然语言语义多样性和复杂性的理解,从而引入了数据噪声问题。因此,该任务的主要目标是如何对数据进行建模以规避标注语料中噪声,同时挖掘更多的符合实体间关系的语义特征。随着深度学习的发展,研究者提出了大量方法以提升远程监督关系抽取的性能。一方面,许多研究者分析了通过远程监督方式标注的数据的特点,从文本数据出发,挖掘数据本身内在的联系及特征。另外一方面,一些研究者使用远程监督标注的训练语料库之外的其他外部知识来提升关系抽取的效果。本文分别从这两个角度出发,研究远程监督关系任务中存在的问题,并提出解决方案。从数据本身出发,现有的深度方法将放在同一包中的句子独立对待,而忽略了句子间的相关性。此外现有的深度学习模型在编码句子的向量表示时,忽略了句子作为自然语言本身潜在句法结构信息。在本文中,我们提出了一种融合句子间关系的关系抽取模型(Incorporating Instance Correlations in Distantly Supervised Relation Extraction,简称ICRE)。对于每个包,模型首先构建每个句子的句法依存树,然后再构建句子间的关系,然后将图进行编码学习到的节点(单词)向量表示输入到句子编码器中,以获得更好的句子表示向量。此外,模型使用引入了句子级注意机制来选择有效实例并学习文本关系的表示。最后,将学到的向量用于训练我们的关系分类器。在NYT和GIDS数据集上的实验表明,我们的模型明显优于比较的方法。从外部知识出发,现有的远程监督关系抽取方法将数据中标签信息视为独立且毫无意义的独热编码矢量,这会导致潜在的标签信息丢失,从而无法从包中选择有效的句子。在本章中,我们提出了一种联合标签表示学习的远程监督关系抽取算法(Improving Distantly Supervised Relation Extraction with Joint Label Embedding,简写 RELE)。该模型充分利用了来自知识图谱的结构信息和来自实体描述的文本信息,并通过门控机制来融合两种信息集成学习标签的表示,同时通过注意机力制避免了引入新的的噪声。然后,将学习到的标签表示用作句子上的另一个注意力机制,其中句子的表示也通过实体描述得到了增强,以提升关系提取。通过NYT-FB60K和GIDS-FB8K数据集上大量的实验表明,我们的模型明显相比最新方法有显著的效果提升。