基于神经网络的关系抽取关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shijinya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能相关技术的兴起,自然语言处理领域的诸多方向也得到了长足的发展,并且相辅相成地进一步促进了人工智能相关技术的进步。在众多自然语言处理任务中,关系抽取任务因其广泛的应用场景而受到密切的关注。关系抽取任务旨在提取句子中两个实体之间的可能关系,是众多高阶自然语言处理任务的基础工作。同时,关系三元组「实体,关系,实体」是组成知识库的基本知识单元,因此关系抽取也是知识库补全的重要工具,是未来以知识驱动的人工智能的重要奠基工作。经过近几?年的长足发展,关系抽取任务的相关研究已经达到了较高水平。现代关系抽取研究的进一步发展通常面临一个核心问题和一个严峻挑战。核心问题是:在复杂关系抽取场景中,如何提高关系特征拟合的精确度。严峻挑战是:在关系规模快速扩张后,如何使用自动化构建的数据集进行有效的关系抽取训练。关系特征拟合的精确度是关系抽取任务中最为核心的部分。在神经网络技术被证明具有强大的特征拟合能力之后,一系列的神经网络模型被应用到关系抽取的任务中来,并取得了良好的效果。神经网络模型能够在语义层面上拟合关系特征,对于复杂的隐式关系表达更加敏感。同时,无需手工设计特征的优点使得基于神经网络的关系抽取模型既简单又高效。然而,现有的应用于关系抽取的神经网络技术还存在着诸多的不足,突出表现在复杂关系抽取任务中精确度不足和大规模关系抽取任务中效率低下。另一方面,现代关系抽取的相关应用通常需要面对海量的关系类型。例如在知识库补全应用中,大量的关系实例需要被分析和提取,因此需要海量的训练数据。显而易见,传统的手标数据没有办法满足大规模的关系提取需求,因此现代关系抽取任务寻求使用自动化构建的数据集进行关系抽取模型的训练,例如远程监督技术。然而,自动化标注的数据集通常包含了大量的噪声,例如错误标注的句子。因此,降低噪声的影响并保证关系抽取模型在高噪声数据集上的鲁棒性是大规模自动化关系抽取面临的严峻挑战。本文系统性地就以上关系抽取的核心问题及挑战进行了研究。其系统性体现在:(1)本文从精度、效率、鲁棒性和前沿探索四个方面展开研究,涵盖了关系抽取研究的各个方面;(2)针对核心问题关系特征拟合,本文从精度和效率两个角度展开了对于神经关系抽取模型的优化;(3)面对大规模自动化关系抽取任务中的降噪工作,本文为影响关系抽取效果的噪声建模,提出了包括词汇级别噪声、句子级别噪声、先验知识级别噪声和数据分布级别噪声的四层噪声分布模型。通过多级别多粒度的抗噪声优化来增强关系抽取模型的鲁棒性。同时,本文不仅为关系抽取中单个未解决的问题研究应对方案,而且注重不同问题之间的相互关联,使得不同的研究成果之间可以协同、复用、互补和加强。具体而言,本文开展了以下研究工作并作出了相应的贡献:1.提升关系特征拟合精度本文研究了多标签关系抽取中特征的分类聚合问题,以提升关系抽取模型在复杂的多标签场景下的特征拟合精度。首先,本文首次引入了胶囊网络作为共生关系特征聚合的基础模型。其次,通过集成注意力机制来强化关系特征。本文提出的基于注意力的胶囊网络在多标签的关系提取任务上取得了良好效果。2.优化关系特征拟合效率本文研究了诸多神经网络模型在关系抽取任务上的效率问题,特别注意到作为基础模型的卷积神经网络和循环神经网络在大规模关系抽取任务上的低效及过度使用。在此基础上,本文提出了基于句内问答的极简关系抽取模型,在关系抽取效率和精度上都大幅提升。3.增强关系抽取模型鲁棒性针对大规模自动关系抽取,本文研究了远程监督的诸多模型,并提出了新的数据噪声分布体系,最终实现多级别多粒度的抗噪声技术,极大地增强了基于远程监督的关系抽取的鲁棒性。4.探索关系抽取的前沿模型除了传统的关系抽取工作之外,本研究从关系抽取训练方式和评测方法入手,探索了关系抽取相关工作新的解决方案,并最终提出了基于对抗生成网络的半远程监督关系抽取框架和基于主动学习的无偏测评方法。
其他文献
之前已初步介绍了在正式练习分解游动作之前先要掌握的三大基础练习——正确的呼吸(深呼吸)、漂浮(静漂仰漂和俯卧漂浮)以及蹬壁超直线型直体滑。接下来我们将遵循成人学游泳
服装智能化样板设计技术,除了具备原来服装CAD制板技术的功能之外,还要能够在尺寸出现变化后可自动智能生成新样板的功能,可自动生成高质量、高精度的系列样板,为服装CAD系统
<正>经过前四课时的练习后,成年人已经完全克服了水中的恐惧感,掌握了漂浮和游泳时身体应具备的基本形态,并且掌握了身体的俯卧平衡,背部平衡和体侧平衡了。通过接下来的练习
“意见领袖”的概念,最早于20世纪40年代被拉扎斯菲尔德提出,并被广泛地被用于人际传播和组织传播中。时至今日,在网络虚拟社区中,存在着一批被称为“网络意见领袖”的群体,
结合新媒体时代背景,研究阐述了新媒体在民族地区高校英语教育中运用的价值。并结合实际,从转变教学模式、优化资源配置、加强师资力量以及将地方民族特色与英语教育相融合等
为了推进京津冀协同发展,提出在冀中南地区需要以石家庄为核心构建京津冀城市体系的第三极,通过"四层次扩展"方式将"一城四星"格局下的石家庄发展成为京津冀城市体系的第三极
目的探究以量化评估策略为基础的早期渐进式康复训练对ICU机械通气患者功能康复及预后的影响。方法选取2017年11月~2019年2月在我院ICU进行机械通气治疗的70例患者,将其随机
当前,我国正处于经济转型关键期和产业结构调整期,而人才是社会发展的内生动力和智力保障,不论是一线大都市还是小县城,都迫切需要人才的加入。形势所迫,也是为了满足地方发展需要,近年来,H市J县在人才工作方面不断加大投入,制定出台了一系列人才优惠政策,但是仍然不能满足地方发展对人才的新要求。因此,如何引进高层次人才,如何建设“人才强县”,成为H市J县面临的紧迫问题。查阅资料发现,目前,尚无学者对H市J县
吉林市图书馆学会第四次会员代表大会暨第七次科学讨论会于9月14日至15日在磐石县烟筒山镇召开。学会三届理事、四届理事候选人及部分论文作者近百人参加了会议。市文化局副
<正>在学会正确的呼吸之后,就可以进行踩水和漂浮的练习了。第二课时学会踩水和漂浮按照上一课的方法要点学会呼吸后,一定要反复练习,每次下水先抽出十几分钟练习正确的呼吸,