关系抽取与知识图谱中的表示学习研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yici_00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域中,文本信息抽取任务是一个被广泛重视的研究分支,其在机器自然语言理解能力方面扮演着非常重要的角色。文本信息抽取系统,旨在将自然语言中的非结构化信息转化为结构化信息,从而利于机器存储处理和理解推理。传统的信息抽取方法大多建立在预定义好的语义语法特征基础上,这些特征通常来自于语言专家和语言分析工具,语义语法特征通过离散形式的符号表示被抽象为输入特征,并通过训练分类器得到预测模型。此类方法过度依赖于语义语法特征,所以存在标注成本昂贵和误差传递的问题,且泛化和拓展能力较差。符号表示的信息量以高维度为代价,所以会给训练过程带来困难。近年来,随着深度神经网络的研究发展,分布式表示的优势得到了极大的开发和利用。相比于符号表示,分布式表示可以通过更少的维度携带更多的信息,且分布式表示在语言向量空间中具有连续性,从而使语义向量的向量计算变得更有意义。在此背景下,本文从三个方面研究了分布式表示和深度神经网络在文本信息抽取领域的应用:首先是输入层方面,通过优化词向量的生成过程提升任务表现;然后是网络结构方面,结合文本信息抽取的特点,对深度神经网络的结构进行优化;最后是解决数据标注成本昂贵的问题方面,从弱监督和零样本学习两个角度提出了解决方案。本文的主要研究内容及创新点可以概括为以下四个方面:1.词向量的负采样优化和任务型训练。传统的词向量训练根据词频定义负采样策略,这种方式为词频越大的词语提供越多的训练次数。本文通过分析词频与词语表意能力之间的关系发现,相对于高频词(功能词等),中频词(常用的动词和形容词等)具有更重要的语意表征作用。为此,本文借助TF-IDF的思想,结合词语的词频和词语出现的段落数,提出了更合理的负采样策略NEG-TFIDF,该方法为高频词和中频词分配了更合理的采样概率。通过NEG-TFIDF方法训练的通用词向量在词向量验证任务和下游验证任务中均取得了明显的效果提升。采用通用词向量作为下游任务的输入,可以提供丰富语言学先验知识。分析发现,通用词向量存在一定的局限性,例如“good”和“bad”的通用词向量具有很高的相似性,但这种性质不利于情感分类模型的训练。针对这个问题,本文还提出了两种任务型词向量训练方法:TS-CBOW和TS-SG,在通用型词向量的基础上,借助下游任务标签进行词向量参数的微调。实验证明,本文训练的任务型词向量有效地提升了下游任务的效果。2.基于实体信息增强的实体关系抽取。虽然深度学习技术在实体关系抽取任务上取得了不错的表现,但本文进一步分析关系抽取的任务特点发现,增强网络模型对实体信息的编码能力可以进一步提升关系抽取的效果。因此,本文针对两种不同的网络结构提出了相应的实体信息增强策略。第一,针对卷积神经网络提出了一种实体标签特征(Entity Tag Feature,ETF)。ETF通过在输入文本序列中引入4个实体标签向量,有效地标识了实体位置信息并引导模型关注实体内容信息,解决了传统的Position Feature存在训练不均衡和距离定义不明确的问题。第二,针对循环神经网络,结合注意力机制,提出了一种基于实体对信息增强的注意力机制(Entity-pair-based Attention Mechanism,EAtt)。EAtt利用实体对信息的指导作用,有效地帮助循环神经网络关注关系类别的局部触发信息,同时解决了传统注意力机制对先验知识的缺乏和参数过拟合问题。在数据集SemEval-2010 Task 8上的实验结果表明,ETF和EAtt均有效提升了关系抽取的效果。3.基于增强学习和对抗学习的远程监督关系抽取。在基于远程监督标注的训练样本中,噪声样本(错误样本)的存在是影响其效果的主要因素。针对这个问题,不借助人工标注信息,本文提出了两种启发式学习噪声样本鉴别器的方法:DS-RL和DSGAN。DS-RL是基于深度强化学习的策略,该方法通过分类效果定义奖励机制,并让噪声鉴别器通过多轮“动作-环境-奖励”的学习过程提高获得的奖励,从而提升其噪声鉴别能力。DSGAN是基于对抗训练的策略,该方法使生成器(噪声鉴别器)每一轮训练得到的鉴别结果以相反的标签训练鉴别器,从而构成对抗关系。通过对抗训练不断增加生成器与鉴别器的对抗程度。当鉴别器受到的对抗程度达到最大时,生成器即获得了最好的噪声鉴别能力。在NYT-Freebase数据集上的实验结果表明,DS-RL和DSGAN有效地提升远程监督关系抽取的效果4.基于对抗学习的知识图谱零样本学习。通常情况下,知识图谱内容的扩充需要对新关系类别标注充足的训练样本,但这种方式成本高且通用性差。因此,本文提出了一种针对知识图谱扩充任务的零样本学习方法。在没有标注数据的情况下,通过新关系类别(unseen relation)的文本描述生成新关系类别向量,并应用该类别向量完成对新关系实例的预测。上述的知识转换过程采用生成对抗网络实现,其中,生成器的作用是接收关系文本描述并输出关系类别向量,完成自然语言特征空间到知识图谱特征空间的特征转换;鉴别器的作用是鉴别出真实的关系类别向量和生成的关系类别向量。生成器通过与鉴别器的对抗训练逐渐增强自身的知识转换能力,最终实现新关系实例的零样本预测。实验结果表明,本文提出的知识图谱零样本学习方法在知识图谱扩充任务上取得了明显的效果提升。
其他文献
心电图T波反映心室肌的复极过程,而双峰T波的临床意义尚不清楚。本文分析68例双峰T波,旨在探讨其临床意义。
某工程项目位于北京市门头沟区,场地内卵石、碎石地层层厚大,施工困难,选用CFG桩进行地基处理。考虑场地地层条件、施工设备、项目工期以及工程造价,按变形控制对CFG桩进行设计,同
随着社会和经济的不断发展,互联网金融在资本运作方面的权重日益加重,互联网金融犯罪也越来越多,再加之我国目前征信体系以及融资模式不够健全与完善,使得在互联网金融快速发
充分发挥会计工作的作用是公路建设的客观所在。阐述了会计工作在反映公路养护状况、养护质量及提高公路建设效益等方面所起的作用,并指出要充分发挥其作用,必须加强与其他部门
回顾分析我院2003年1月至2004年12月治疗的320例稽留流产的临床资料,并与同期以传统方法治疗稽留流产30例作为对照,以评价米非司酮配伍米前列醇治疗稽留流产的疗效.
通过对国内桥梁被撞的调查,分析了桥梁防撞的方式,探讨了圆形桥墩防撞的原理,并通过石龟山大桥35号,36号壁圆形墩所受撞击力的分析计算,设计了了种船形防撞保护装置。
目的:探讨胸部CT与纤维支气管镜(以下简称纤吏镜)在诊断肺部疾病中的价值。方法:对77例肺部病变患者进行胸部CT及纤支镜检查,并将二者结果进行比较分析。结果:77例中胸部CT确诊肺部
临床资料1一般资料本组42例扩张型心肌病(DCM)患者,男19例,女23例,年龄21~72岁,平均52岁,均排除其他原因心脏疾患。42例患者行彩色多普勒超声心动图检查,并常规作12导心电图检查,心律失
黄连温胆汤出自清代陆廷珍《六因条辨》一书,由黄连、半夏、陈皮、茯苓、甘草、生姜、竹茹、枳实组成。方中半夏燥湿化痰、降逆和胃,枳实行气化痰,陈皮理气化湿,茯苓健脾渗湿
在简要地总结“八五”期间高等级公路建设成就基础上,阐述了目前正在影响高等级公路建设的不利因素,提出了实现我省“九五”期间高等级公路建设宏伟蓝图的对策:(1)加大征费政策改革