面向文档级长文本的关系抽取算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:LuYang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速普及与发展,全球上网人数不断增加,数据的生成量级也迎来爆炸性的增长,如何充分利用好海量的数据为人们提供智能化的信息服务一直以来都是计算机从业者所追求的目标。然而海量无结构的数据所提供的信息量是有限的或者说对于下游应用任务来说是不方便处理的,因此从无结构化的数据之中抽取出结构化的知识这一需求也日益迫切。关系抽取正是解决这一需求的重要任务,从纵向发展来看关系抽取是自然语言处理(信息抽取领域)中的一项非常基础的上游任务,它作为一项基础性的服务从无结构化的数据之中抽取出结构化的知识三元组,供下游任务(例如:问答系统、知识图谱、机器阅读理解等)使用;从横向发展来看关系抽取任务自身在经历了十几年的广泛研究之后,根据不同的场景与需求发展出了不同的任务形式(例如:句子级关系抽取、联合抽取、远程监督关系抽取、文档级关系抽取等),而本文所主要研究的文档级长文本关系抽取正是近年来学术界广泛关注的一个重要且实用的研究方向。本文通过对文档级长文本关系抽取任务的详细研究,分析并阐述了之前研究中广泛存在的两类问题,首先提出了一个面向关系抽取任务的知识增强的预训练模型,以进一步提升文档级长文本关系抽取任务的基线性能。然后针对文档级关系抽取任务中存在的远程依赖信息捕获能力不足的问题,提出了一种层次结构的图神经网络模型。最终,基于前面两个工作,本文还探索了噪声文档级关系抽取这一关注度较低,但是非常重要的研究领域。本文的主要工作包括:1.基于文档级实体关系知识注入的预训练模型。在本文中我们提出了一种实体关系知识注入的预训练模型,致力于在通用预训练模型(pre-trained language model,PLM)的基础之上,注入PLM中一些与下游文档级关系抽取任务强相关的实体关系知识,从而为下游提供一个性能更加优异的预训练模型。具体来说,我们设计了一种伪标签词向量知识注入的方式能够在不增加额外参数的情况下高效的注入外部知识,并且我们针对文档级关系抽取任务的特点设计了多个新颖的预训练任务,让外部知识能够充分的融入预训练模型中。2.基于图神经网络的分层推理与聚合模型。针对文档级关系抽取中存在的难以捕获不同实体对之间远程依赖,难以有效聚合不同粒度有效信息的问题。本文提出了一种具有层次结构的图神经网络模型,将文档级关系抽取任务建模为一个层次递进的逻辑推理与信息聚合过程。具体来说,本文在三个不同的信息层级上面分别引入了三种不同的图,并且提出了一种新颖的混合注意力机制,来为要分类的实体对高效的聚合全局与局部的推理信息。3.基于知识蒸馏的噪声消除模型。在本文中我们探索了噪声文档级关系抽取这一关注度较低,但是却非常重要的研究方向。为了在噪声数据之中低成本的训练出一个性能相对优异的模型,我们基于前面两个工作,在知识蒸馏训练框架的支持下实现了知识的迁移。具体来说,我们将前面两个模型结合起来作为教师模型(Teacher Model),将传统的预训练模型作为学生模型(Student Model),将噪声文档级关系抽取数据作为训练数据,在教师模型的指导下,我们能够消除噪声数据的部分影响,从而训练出一个性能相对优异的学生模型出来。
其他文献
随着移动通讯技术的迅速发展,当今社会人们逐渐走向了“永久在线”的关联状态。在这样一个技术赋能的社会与组织背景下,信息技术的使用迫使员工必须不断适应工作方式与工作特征的实质性改变,对工作状态带来了未知的影响。因而技术压力也成为组织行为研究显著的新兴议题。本研究以压力交互理论与挑战—阻碍性压力源模型为理论基础,通过对上海市基层公务员的访谈调研,利用扎根理论方法提炼出五维度的基层公务员技术压力源,分别为
学位
随着进入大科学时代,投入产出庞大、多学科交叉的大科学装置成为了当代科学技术在前沿领域取得进步的基础设施。大科学装置占用资源庞大,但产出具有不稳定性,由此可能带来投入产出不平衡的“白象难题”,要解决“白象难题”,需要从大科学装置的两类主要产出成果:代表科学的基础研究与代表技术的应用研究入手,探究大科学装置的知识转移特征,减少知识转移过程中的粘滞知识,提升大科学装置知识转移效率,拓展大科学装置的产出效
学位
随着现代技术的发展,数据获取技术以及数据存储能力都有了显著的升,这使得众多科学领域的函数型数据都更容易获得。函数型数据与我们的生活息息相关,在生活中也很常见,比如个人的心电图,个航班的经纬度数据,多普勒超声造影数据等等,都是函数型数据。由此可以看出对函数型数据进行研究的重要性以及必要性。自Ramsay出函数型数据以来,函数型数据一直都是研究的热点。随着研究的深入,非线性结构数据不断涌现,如脑机接口
学位
现代科学研究和应用中经常会遇到碎片化数据,它是有着很高的数据缺失率和复杂的响应模式,这给数据填充和标签预测任务带来了很大的挑战。现有统计学方法在处理碎片化数据时能够提供有用的理论性质,但通常需要依赖于某些模型假设并且能够处理的数据类型不够灵活。另一方面,机器学习领域中基于生成对抗网络的方法要么没有理论保证,要么只考虑完全随机缺失机制的情况。并且它们大多将数据填充与标签预测两项任务分割开来,影响了标
学位
随着我国老龄化程度加深、老年平均寿命延长,老年人群体的照护需求在不断增长。但是目前社会化养老服务体系存在着无法解决所有养老问题的局限性,家庭照料依然是养老的主要选择之一。但是承担照护家中老人责任的家庭护老者却面临着照护压力风险、照护能力提升限制、社会支持短缺的多重困境,家庭护老者生活质量下降,甚至照护悲剧频繁发生。因此本研究在压力过程理论、社会支持理论的指导下,聚焦家庭护老者主观生活质量如何提升的
学位
鸭坦布苏病毒(Duck Tembusu virus,DTMUV)为黄病毒科黄病毒属成员,是严重危害当前养鸭业的重要病原,造成重大的经济损失。DTMUV引起的疾病肆虐流行,主要引起鸭体重减轻、食欲不振、产蛋率下降甚至死亡等特征,其免疫逃逸和致病机制目前仍不清楚。本研究首次克隆了鸭的MAVS基因并分析了其在鸭天然免疫反应中的作用,积累了鸭天然免疫信号通路的研究方法和技术手段,也完善了鸭天然免疫研究平台
学位
深度强化学习是一种极具前景的技术,可用于解决现实场景中的各种复杂控制问题。然而,强化学习系统具有的三个特性使得验证工作变得十分困难,其中这三个特性分别是:(1)系统通常具有连续的状态空间;(2)系统的状态转移方程一般是非线性的;(3)部署在系统中的深度神经网络是不可解释的。因此,在缺乏有效的验证方法来确保可靠性的前提下,强化学习在安全攸关领域中的应用受到了一定的限制。为了缓解该现状,本文提出了一种
学位
长久以来,序列推荐一直是推荐系统领域的研究热点。大多数序列推荐模型仅关注用户行为序列的顺序建模,忽略了有效利用序列中的时间信息、深入挖掘其中蕴含的语义知识,因此推荐性能受到制约。时间信息建模对于序列推荐意义深远。一方面,用户交互行为的时间戳包含丰富语义,各类待利用的时间信息对于理解用户真实意图进而实现精准推荐十分关键;另一方面,时间信息具有容易获取的独特优势,序列推荐能够利用时间信息有效缓解数据稀
学位
强化学习是目前机器学习领域的热门方向,在游戏博弈,推荐系统等领域都有许多成功应用。强化学习通过与环境进行大量的交互获得反馈进行学习,根据与环境交互的行为策略与学习到的目标策略是否相同可分为on-policy和offpolicy方法,而后者是提高强化学习的样本利用效率的重要方法。本文研究off-policy强化学习算法如何根据行为策略收集的样本数据集学习一个新的具有良好表现性能的目标策略的问题。在以
学位
近年来,移动互联网的发展带来了诸多基于群组通信的应用,如在线会议,社交网络等,为人类日常生活及工作提供了极大的便利。群组通信安全也日益受到人类社会的关注,成为了当下研究的一个热点问题。利用群密钥管理技术可以实现群组间安全通信信道的建立。由于应用场景的复杂多变性,群密钥管理技术也亟临诸多挑战。本文主要讨论了群密钥管理技术在移动自组织网络、分布式在线社交网络两个场景中的应用。移动自组织网络、分布式在线
学位