论文部分内容阅读
在自然语言处理领域中,文本信息抽取任务是一个被广泛重视的研究分支,其在机器自然语言理解能力方面扮演着非常重要的角色。文本信息抽取系统,旨在将自然语言中的非结构化信息转化为结构化信息,从而利于机器存储处理和理解推理。传统的信息抽取方法大多建立在预定义好的语义语法特征基础上,这些特征通常来自于语言专家和语言分析工具,语义语法特征通过离散形式的符号表示被抽象为输入特征,并通过训练分类器得到预测模型。此类方法过度依赖于语义语法特征,所以存在标注成本昂贵和误差传递的问题,且泛化和拓展能力较差。符号表示的信息量以高维度为代价,所以会给训练过程带来困难。近年来,随着深度神经网络的研究发展,分布式表示的优势得到了极大的开发和利用。相比于符号表示,分布式表示可以通过更少的维度携带更多的信息,且分布式表示在语言向量空间中具有连续性,从而使语义向量的向量计算变得更有意义。在此背景下,本文从三个方面研究了分布式表示和深度神经网络在文本信息抽取领域的应用:首先是输入层方面,通过优化词向量的生成过程提升任务表现;然后是网络结构方面,结合文本信息抽取的特点,对深度神经网络的结构进行优化;最后是解决数据标注成本昂贵的问题方面,从弱监督和零样本学习两个角度提出了解决方案。本文的主要研究内容及创新点可以概括为以下四个方面:1.词向量的负采样优化和任务型训练。传统的词向量训练根据词频定义负采样策略,这种方式为词频越大的词语提供越多的训练次数。本文通过分析词频与词语表意能力之间的关系发现,相对于高频词(功能词等),中频词(常用的动词和形容词等)具有更重要的语意表征作用。为此,本文借助TF-IDF的思想,结合词语的词频和词语出现的段落数,提出了更合理的负采样策略NEG-TFIDF,该方法为高频词和中频词分配了更合理的采样概率。通过NEG-TFIDF方法训练的通用词向量在词向量验证任务和下游验证任务中均取得了明显的效果提升。采用通用词向量作为下游任务的输入,可以提供丰富语言学先验知识。分析发现,通用词向量存在一定的局限性,例如“good”和“bad”的通用词向量具有很高的相似性,但这种性质不利于情感分类模型的训练。针对这个问题,本文还提出了两种任务型词向量训练方法:TS-CBOW和TS-SG,在通用型词向量的基础上,借助下游任务标签进行词向量参数的微调。实验证明,本文训练的任务型词向量有效地提升了下游任务的效果。2.基于实体信息增强的实体关系抽取。虽然深度学习技术在实体关系抽取任务上取得了不错的表现,但本文进一步分析关系抽取的任务特点发现,增强网络模型对实体信息的编码能力可以进一步提升关系抽取的效果。因此,本文针对两种不同的网络结构提出了相应的实体信息增强策略。第一,针对卷积神经网络提出了一种实体标签特征(Entity Tag Feature,ETF)。ETF通过在输入文本序列中引入4个实体标签向量,有效地标识了实体位置信息并引导模型关注实体内容信息,解决了传统的Position Feature存在训练不均衡和距离定义不明确的问题。第二,针对循环神经网络,结合注意力机制,提出了一种基于实体对信息增强的注意力机制(Entity-pair-based Attention Mechanism,EAtt)。EAtt利用实体对信息的指导作用,有效地帮助循环神经网络关注关系类别的局部触发信息,同时解决了传统注意力机制对先验知识的缺乏和参数过拟合问题。在数据集SemEval-2010 Task 8上的实验结果表明,ETF和EAtt均有效提升了关系抽取的效果。3.基于增强学习和对抗学习的远程监督关系抽取。在基于远程监督标注的训练样本中,噪声样本(错误样本)的存在是影响其效果的主要因素。针对这个问题,不借助人工标注信息,本文提出了两种启发式学习噪声样本鉴别器的方法:DS-RL和DSGAN。DS-RL是基于深度强化学习的策略,该方法通过分类效果定义奖励机制,并让噪声鉴别器通过多轮“动作-环境-奖励”的学习过程提高获得的奖励,从而提升其噪声鉴别能力。DSGAN是基于对抗训练的策略,该方法使生成器(噪声鉴别器)每一轮训练得到的鉴别结果以相反的标签训练鉴别器,从而构成对抗关系。通过对抗训练不断增加生成器与鉴别器的对抗程度。当鉴别器受到的对抗程度达到最大时,生成器即获得了最好的噪声鉴别能力。在NYT-Freebase数据集上的实验结果表明,DS-RL和DSGAN有效地提升远程监督关系抽取的效果4.基于对抗学习的知识图谱零样本学习。通常情况下,知识图谱内容的扩充需要对新关系类别标注充足的训练样本,但这种方式成本高且通用性差。因此,本文提出了一种针对知识图谱扩充任务的零样本学习方法。在没有标注数据的情况下,通过新关系类别(unseen relation)的文本描述生成新关系类别向量,并应用该类别向量完成对新关系实例的预测。上述的知识转换过程采用生成对抗网络实现,其中,生成器的作用是接收关系文本描述并输出关系类别向量,完成自然语言特征空间到知识图谱特征空间的特征转换;鉴别器的作用是鉴别出真实的关系类别向量和生成的关系类别向量。生成器通过与鉴别器的对抗训练逐渐增强自身的知识转换能力,最终实现新关系实例的零样本预测。实验结果表明,本文提出的知识图谱零样本学习方法在知识图谱扩充任务上取得了明显的效果提升。