论文部分内容阅读
随着互联网急剧发展,大量非结构文本数据日益增多,如何结构化这些文本数据成为一个亟待解决的问题,而自然语言处理任务的研究对象正是这些非结构化的数据。其中关系抽取是自然语言处理任务中的一项重要基础任务。关系抽取任务是问答系统、知识图谱、信息检索等人工智能及其相关研究领域的基础任务之一。关系抽取任务通过获取句子中实体词之间的关系,从而能够自动化构建句子中存在的知识,便于研究者构建知识图谱。传统的关系抽取方式极为依赖人工经验,需要熟练且有相关知识的研究者手动选取特征,这样不仅导致特征选择效率低下,而且易出错。但是近年来随着深度学习的发展,更多的深度学习方法被应用于自然语言处理任务中,并且获得了很大的成功。但是这些使用深度学习方法的相关研究文献仍存在一些不足之处。针对具体存在的问题,本论文提出了三个基于深度学习的关系抽取模型,主要包含如下三个方面:(1)大多数关系抽取模型只使用了一种深度学习模型的,并不能将多种模型的优点集于一身,因此本文提出一种基于双通道自注意力的关系抽取模型,该模型通过使用卷积神经网络和循环神经网络分别提取数据特征,使模型能够有效利用两个网络模型的优点,弥补两个模型各自的不足。最后实验结果显示,本模型在Sem Eval-2010 Task8数据集上进行训练和测试,测试结果相比于其他使用该数据集的6个模型均有所提高,其综合评价指标F1值比其他方法高出1.4%至6.3%,达到了85.1%。(2)其他模型没有完全利用给出的实体词数据,因此本文添加了对实体词的运用,增加了对给出的实体词进行命名实体识别的过程,提出了一种基于辅助模型的关系抽取模型。该模型将实体识别任务作为实体关系抽取任务的辅助任务添加到模型训练中,从而进一步提高句子中的实体词对实体关系抽取任务的作用与影响。在模型使用和测试阶段则只使用主模型进行实体关系抽取任务模型,不再使用实体识别任务模型。实验结果显示,本模型在与上一个模型所使用的相同的数据集下,本模型得到的综合评价指标F1值比上一个模型提高了1.0%,达到了86.1%。(3)针对在模型中添加了实体词数据,但是无法通过有效的机制筛选数据中的有效信息,过滤无用信息这一问题,本文进一步提出了一种基于选择门网络的关系抽取模型。该模型加强了实体词和句子之间的联系,其中选择门结构能够有效获取实体词与上下文之间的重要关系,同时还能过滤句子中无效的信息数据,保留与句子语义及实体词与上下文有关联的数据。实验结果显示,本模型在Sem Eval-2010 Task8数据集上进行训练和测试,测试结果相比于其他使用该数据集的6个模型均有所提高,其综合评价指标F1值比其他方法高出2.8%至8.1%,达到了86.9%。