论文部分内容阅读
在如今这个大数据时代,网络每分每秒都会产生海量的信息,在这些网络信息中文本信息所占的比重很高。如何从数量庞大的异构文本信息中提取出主要信息一直是众多学者研究的热点问题之一。而关系抽取作为信息抽取的一个分支,可以检测、揭示文本中实体之间的语义关系,是解析异构文本的重要方法。按照训练数据的来源,关系抽取可分为有监督关系抽取、无监督关系抽取、半监督关系抽取和远监督关系抽取。其中远监督关系抽取因其无领域限制、适用于大规模数据集的特性备受研究者们的关注。现有远监督关系抽取方法主要存在如下三点缺陷:第一,远监督关系抽取在将知识库中的关系实例与自然语言文本进行对齐以获取大量训练数据时所使用的假设过于肯定,将很多噪声数据引入了数据集,影响了远监督关系抽取的效果。第二,远监督关系抽取需要人工设计语句特征,这些特征通常是通过自然语言处理工具提取出来的。在这个过程中,错误是不可避免的,而且这些错误会一直传递下去,限制了远监督关系抽取的性能。第三,现有方法缺乏与实体相关的背景知识作为补充说明,无法抽取出更多正确关系实例,也无法更好地避免错误预测,从而阻碍了远监督关系抽取效果的提升。针对以上三点缺陷,本文提出了基于实体类型信息的远监督关系抽取模型——PCNN+ET+ATT。该模型的关键在于将对实体有补充说明作用的实体类型信息同语句所蕴含的信息加以联合,另外还强化了实体之间词语对关系抽取的影响,使得关系抽取可以抽取出更多正确的关系实例,减少错误预测。本文使用词向量技术将语句、实体类型向量化,求得二者的加权和并作为模型的输入;然后为了降噪,使用了基于多实例学习思想的分包操作对输入进行分组;接着使用分段卷积神经网络自动学习语句和实体类型信息的特征,从而避免了使用自然语言处理工具提取特征时产生的错误传递问题;最后还引入了注意力机制,这使得模型在自动提取语句和实体类型信息的特征时更加智能,充分利用分包中所有有效数据的同时还能进一步降低噪声数据的影响。为了验证PCNN+ET+ATT模型的效果,本文设计了三组对照试验,采用两种测评方式,将新模型与多种经典远监督关系抽取模型进行对比。实验中PCNN+ET+ATT模型均表现良好,实现了较高的准确率和召回率。