论文部分内容阅读
关系抽取技术作为信息抽取(IE: Information Extraction)中的一个重要组成部分,旨在从语料中挖掘出实体之间的关系。本文指出,自然语言中的实体关系不仅与句子中的语言学特征有关,而且与实体对的背景知识密切相关。基于上述两个因素,本文将关系抽取任务细分为三个子任务:句子中的语言学特征表示,实体对在知识库中的特征表示,以及结合句子和实体对特征的关系抽取。首先,本文提出了一种基于循环神经网络(RNN: RecurrentNeural Network)的句子特征学习方法。由于人类语言的极大变化性和抽象性,基于规则和模板匹配的方法需要耗费大量手工标注和特征工程,难以取得理想的效果。本文利用RNN端到端(End-to-End)地实现了特征的自动学习,并通过设计特殊的网络结构和输入信息,有效提高了关系分类的效果。在SemEval-2010Task8和本文提出的KBP37数据集上,RNN不仅超越了传统的特征工程方法,而且相比卷积神经网络方法在F-1值上提升了 0.7~3.7个百分点。同时,本文利用知识库中不同形式的信息源,提出一种联合训练的方法,将知识库中的实体表示在低维浅层空间中。具体来讲,本文结合了三种信息源:实体在知识库中的拓扑信息、实体在知识库中的文本描述信息、以及语料中的上下文信息。通过联合学习之后的实体向量,能够更加全面地包含实体的语义信息,更加精准地刻画实体间的语义关系。最后,本文创新性地提出了一种利用知识库中的实体信息为关系抽取模型提供先验知识的方法。在关系分类中,我们提取出左右实体在知识图谱中的周围节点以及连通路径上的节点,并通过注意力神经模型对这些提取的节点在低维空间中进行权重计算,最后联合原有的RNN结构,给出用于分类的特征向量。该方法相比原始的RNN模型在F-1值上有了 2至3个百分点的提升,效果较为显著。另外,为了增加模型的普适性,使得关系抽取能够更好地支持其他语言,本文还提出了一种命名实体的标注迁移方法,通过双语平行语料,将英文中的实体映射到其他语言中。综上所述,本文重点提出了一种结合知识库中实体信息的关系抽取方法。该方法不仅可以应用于关系抽取任务,还可以应用于其他涉及命名实体的自然语言处理任务中,例如事件抽取、问答系统等等,应用前景十分广阔。