论文部分内容阅读
随着网络信息化的逐步发展,非结构化的文本信息不断增长,如何对大量产生的非结构化文本信息进行有效的处理成为研究的热点。信息抽取技术因其能够从非结构化的文本信息中进行结构化抽取,受到学者们的广泛关注。其中,命名实体识别与实体关系抽取作为信息抽取领域的重要课题,目前解决这个问题的方法主要分为两类:串联抽取和联合抽取。串联抽取方法是通过首先进行命名实体识别,再进行实体关系抽取。这种抽取方式将命名实体识别与实体关系抽取定义为两个相互独立的子任务,它的优点是各个模块之间相互独立、灵活度较高且易于实现。但是,它忽略了两个任务之间的内在联系,而且通过串联抽取方法进行命名实体识别的结果会直接影响到后续进行的实体关系抽取,极易产生误差累积。联合抽取方法旨在构建联合抽取模型,当命名实体识别与实体关系抽取之间存在较强内在联系或依赖关系时,联合抽取模型能够更好的整合两者之间的信息,降低各个中间步骤产生的错误,进而提升抽取模型的性能。本文通过充分分析命名实体识别与实体关系联合抽取方法的研究现状,对目前在命名实体识别与实体关系联合抽取领域效果显著的几种方法进行分析与实验,依据传统联合抽取模型存在的不足,本文提出以下工作:1.为解决串联抽取方法带来的一系列问题,并且避免复杂的人工特征工程,本文通过构建基于神经网络的联合抽取模型进行命名实体识别与实体关系联合抽取任务,基于神经网络的联合抽取模型将命名实体识别与实体关系抽取整合到一个模型中,能够在充分考虑两者内在联系的同时减少人工抽取特征工作。2.针对典型联合抽取模型在训练时需要先进行NER,再根据NER的预测信息进行两两匹配来进行关系分类,易于造成信息冗余的问题。本文提出一种标记策略,将联合抽取问题转化为标注问题,在一定程度上避免了信息冗余的产生。3.本文的研究重点是对于命名实体以及实体间的关系组成的三元组进行抽取,这种抽取方法需要对三元组进行建模,所以,本文基于新的标记策略,构建LSTM-LSTM端到端联合抽取模型,端到端联合抽取模型可以直接通过LSTM神经网络进行建模且无需复杂的特征工程。此外,本文在LSTM解码层添加带有偏置的目标函数,使标签与基于LSTM-LSTM的端到端模型更契合。4.在LSTM-LSTM-Bias模型中引入注意力机制,对模型的输入与输出的相关性进行有效分析,从而获得更多的上下文语义信息。实验结果表明,基于LSTM-Att-LSTM-bias的联合抽取模型能够更准确地识别命名实体并预测实体对关系,实验结果验证了本文提出的算法的有效性和准确性。