论文部分内容阅读
信息抽取主要研究如何有效地、自动地从海量数据中抽取出有用的信息,在知识服务方面具有重要的意义。关系抽取作为信息抽取的重要组成部分之一,一直以来是自然语言处理领域的研究热点。关系抽取任务的主要目的是将半结构化或非结构化的自然语言文本转换为结构化文本,然后找出句子中两个已被标识的实体之间的语义关系,是知识图谱、问答系统等智能应用的基础。以往,大多数关系抽取的研究都是基于传统的机器学习方法,这些方法通常依赖于人工制作的特征。但是,特征工程是劳动密集型任务,需要大量的人力和时间。随着深度学习方法在自然语言处理领域地成功应用,大量学者开始采用深度学习方法研究关系抽取任务,削弱了人工构造特征的需求。然而,这些方法存在两个问题:一是忽视了实体与上下文之间的交互信息;二是不能很好地获取远距离的上下文依赖关系。围绕这些问题,本文以基于长短时记忆网络的关系抽取方法为基础,从以下三方面开展研究:(1)针对“忽视实体与上下文之间的交互信息”的问题,提出了一种基于实体依赖的长短时记忆网络关系抽取模型。首先,为了保存实体周围的上下文信息,本文使用两个双向长短时记忆网络将前后两个方向的上下文文本编码为其语义表示;然后,通过实体依赖的思想建模实体词与其上下文之间的关联性,并选择上下文的相关部分来推断实体之间的语义关系;最后,本文采用SemEval-2010 Task 8数据集对模型进行训练,并选择了8种目前较好的关系抽取方法与本模型进行对比。实验结果显示,本模型的综合评价指标F1值为85.6%,比其它方法高出约0.5%至6.8%,有效地提升了实体关系抽取的性能。(2)针对“不能很好地获取远距离的上下文依赖关系”的问题,提出了一种基于自注意力机制的长短时记忆网络关系抽取模型。目前常用于提取实体关系的神经网络模型,例如卷积神经网络和循环神经网络,均不能很好地获取远距离的上下文依赖关系。本文认为充分地利用远距离的上下文依赖关系,有助于模型更加精准的抽取句子中实体之间的语义关系。为了解决这个问题,本文提出了一种基于自注意力机制的长短时记忆网络关系抽取模型,本模型能够学习句子中各个词之间潜在的依赖关系,可以对相关上下文进行较为全面地分析,捕获到更加有益的信息。本模型首先使用一个双向长短时记忆网络将实体词与上下文词编码为其特征表示,然后将得到的表示矩阵输入到多头注意力模块中得到实体与其上下文的多层注意力表示,最后连接一个分类层对语义关系进行分类。与上述8种关系抽取方法的对比实验表明,本模型可以获得85.2%的F1值,比其它方法高出约0.1%至6.4%,较好地解决了现有关系抽取模型不能充分获取远距离的上下文依赖关系的问题。(3)为了进一步探索提高语义关系分类准确性的方法,本文将基于实体依赖的长短时记忆网络与自注意力机制相结合,提出了一种联合自注意力机制的实体依赖长短时记忆网络关系抽取模型。本模型将上述两种模型的优势结合在一起,使得实体与其上下文之间的交互信息以及远距离的上下文依赖关系可以共同作为关系分类的依据,从而能够更加充分地利用实体周围的上下文信息。本文使用SemEval-2010 Task 8数据集作为模型的训练数据,将得到的结果与其它现有的8种优秀的关系抽取模型以及上述两种关系抽取模型进行对比。实验结果表明,本模型可以较好地将实体依赖的长短时记忆网络与自注意力机制结合,其F1值高达85.9%,进一步提升了关系抽取的准确性。