论文部分内容阅读
关系抽取是一类重要的信息抽取(Information Extraction,IE)任务,旨在从无结构或半结构的自然语言文本中抽取实体间的关系信息。传统的关系抽取大部分是抽取预定义的关系,为抽取新的关系,需要编写新的关系抽取规则或标注新的数据集。而大规模真实文本中包含着非常丰富的实体关系,难以全部预先定义,为了有效获取这些信息,Banko 等于 2007 年提出了开放关系抽取(Open Relation Extraction,ORE)的任务,旨在尽可能抽取大规模文本中存在的各类实体关系。近十年来,研究者们发布了许多开放关系抽取系统。然而,目前的ORE系统在抽取性能方面还存在问题,比如抽取出不符合事实的关系三元组,并且在抽取效率方面还不能满足处理大规模Web文本的需求。另一方面,虽然ORE系统可以从文本中抽取出所有类别的关系,但一些下游任务只对少量特定的关系类别关系感兴趣。所以,开放关系的分类对下游应用具有重要价值,但目前还没有对开放关系分类的相关研究。本文在前人研究的基础上开展工作。主要内容和贡献包括:(1)提出了一种基于词向量的开放关系抽取模型。近年来出现的绝大多数ORE系统都是建立在有监督学习或依存分析基础上的,这不仅需要有标的训练语料,而且需要使用外部的NLP(Natural Language Processing)工具,这会导致错误传播和效率下降。本文提出一种新的开放关系抽取方法。该方法用基于Skip-gram模型的词向量距离计算候选三元组的可信度。基于贝叶斯理论的分析结果表明,本文所使用的可信度近似于候选三元组三元素联合概率的极大似然估计。进一步的实验结果表明所提出的算法在公开的WEB-500&NYT-500数据集上取得了 67.0%的F1值,超过了一些最新的ORE系统。(2)提出了一种面向开放关系分类的半积极学习算法。ORE系统的抽取结果中包含所有类别的关系,但一个具体的下游任务只需要使用少量特定类别的关系,且不同的下游任务感兴趣的关系类别也不相同。所以,对抽取的开放关系进行分类对下游应用具有重要价值。本文提出了一种对开放关系进行分类的半积极学习算法,SemiE。该算法是一种基于词向量的学习方法,只存储每个分类的“中心点”。其训练的时间复杂度为O(n),预测的时间复杂度和空间复杂度都是O(k),其中n为训练样例的数目,k为分类的数目。实验结果表明SemiE在SemEval-2010 Task 8数据集取得的F1值为84.6%,与最新的基于深度学习的语义关系分类模型具有相当的性能,但训练的时间复杂度较低。(3)提出了一种基于单词信息量的短语向量表示模型用于进一步提升开放关系抽取和分类模型的性能。在实体关系三元组中,实体和关系往往是用短语而非单词表示,为此,本文提出了一种新的短语向量模型计算短语向量表示。该模型基于短语中单词的信息量计算短语的向量表示。这是一种带权的向量累加方法,通过强化短语中“重要”词汇而弱化其中的“次要”词汇来更好的反映短语的语义。将所提出的短语向量表示应用于开放关系抽取与分类中,实验结果表明在WEB-500&NYT-500 数据集上的F1值为69.0%,在 SemEval-2010 Task 8数据集的F1值为85.1%,进一步提升了开放关系抽取和分类的性能。(4)实现了一个基于上述技术的开放关系抽取系统。该系统以纯文本或HTML文本为输入,输出一组开放关系三元组,每个三元组都带有基于Skip-gram模型词向量计算的可信度。