改进的Transformer模型在关系抽取任务中的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:dapao123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上产生大量的非结构化文本数据,如何有效的从这些非结构化的文本数据中挖掘并抽取实体和关系信息就要涉及到实体关系抽取研究;这对知识图谱和自动问答等下游应用的构建具有较强的理论意义和实用价值。本文主要以Transformer特征提取模型为基础,通过对现有实体关系抽取模型的改进,提高实体关系抽取的性能。主要研究内容如下:(1)针对Transformer模型在实体关系抽取任务中性能不佳的问题,本文抛弃模型原始的位置编码方式,加入基于实体全局位置的编码,提取实体在文本序列中相对其它单词的距离和方向信息,可以较好融合自注意力机制且是可学习的;在模型输入向量生成阶段,把词性和命名实体特征融入到词向量中,使模型能够学习文本序列的主要特征;在数据预处理阶段将主副实体进行标签替换处理,有效防止过拟合问题。该模型在数据集上进行验证,结果表明改进的Transformer编码模型在评测指标上优于先前模型。(2)在基于跨度的实体关系联合抽取模型(SpERT)中,虽然把实体识别和关系抽取两者结合起来,但损失部分实体特征信息。本文在SpERT模型的输入阶段使用双向Transformer编码模型预训练的词向量来提高模型的泛化能力,并在输入向量中融入置信度较高的词性标注和句法依存关系特征;在模型的关系抽取层中重用输入信息为关系抽取任务提供更多的特征;在优化模型的损失函数中加入可训练的参数来自主学习两个子任务的损失占比权重。在三个公共的数据集上进行实验,结果表明改进的SpERT模型性能提升明显。(3)本文在实体关系抽取模型研究的基础上开发基于Web端的实体关系抽取应用管理平台和一个实体关系抽取移动平台。在Web端将论文中研究的模型和现有的通用模型经过模块化处理移植到系统平台上,并通过Web Service技术封装成接口供Web服务端调用。在移动端结合实体关系抽取模型完成文本序列的实体识别和关系抽取,并结合ECharts插件对得到的实体关系数据构建知识图谱。综上,本文以Transformer模型为基础,研究其在不同方式下的实体关系抽取任务中的应用。最后根据所研究的实体关系抽取模型,建立一套完整的实体关系抽取应用系统,为知识图谱的构建提供有效支撑。
其他文献
图像配准是医学影像处理中常用的技术,大量应用于医学的各个领域,包括病灶检测,疾病诊断,手术规划,手术导航和疗效评估等。随着多种医学影像技术的蓬勃发展,从反映解剖结构的形态学成像到反映器官组织的功能性成像,不同模态的医学影像从不同的角度承载着丰富的医学诊断信息,将多种模态的图像进行融合处理,能够为临床治疗提供丰富的功能互补信息。而多种模态的图像融合的基础是将这些图像进行配准。因此,多模态医学镜像的配
我国很多关于书法学习的教材和论著都是从二维平面的角度出发,将书法笔迹看作一幅静止不变的平面图像,但实际上书法笔迹是通过书写运动形成的运动轨迹。运笔速度和书写压力都是笔迹变化的最基本因素之一,也是常见的书写指标,可以用来衡量书法临摹时的相似程度。但是在传统的书法教学模式当中,普遍使用的都是手把手模式,也就是学生在观察并记忆教师书写时的力度、速度、布局及节奏等示范之后,再反复在字帖上进行临摹的学习方式
三维成像技术在当代社会应用广泛,在信息和生命科学领域中尤为突出。物体的三维信息对于人们正确认识和探知其结构、三维形貌等具有重要意义。随着近年科学技术水平的飞速发展,人们对提取物体三维信息的能力的需求也日益增长。现代三维成像也逐步向着高分辨、记录彩色图像、动态成像的趋势不断发展,对传统三维成像技术不断提出了新的挑战。近年来,人们相继开发出许多全新的三维成像技术,其中包括全息术、激光扫描共聚焦显微镜、
图像分割作为目标分析与识别、目标跟踪等高级图像处理操作的一项基础且关键的步骤,其分割结果的好坏直接影响后续处理操作。现有的图像分割算法可根据人工参与与否,将其分为交互式分割和自动分割。前者由于其良好的分割性能,得到了广泛的应用。但当面对的图像数据量较大时,相应的需要消耗更多的人力且较费时,无法满足实际需求。近年来,基于视觉显著区域检测算法的研究取得了不错的成果,许多研究人员将其与已有图像分割算法结
视频多目标跟踪主要利用视频上下文信息,对多个目标的外观信息和运动信息建模,实现对目标运动状态的预测和更新,并标记出目标轨迹。视频多目标跟踪涉及了深度学习、机器学习、最优化算法等多个方面的理论知识。随着计算机硬件和数学理论的发展,各种视频多目标跟踪系统纷纷实现,尤其广泛应用于行为识别、交通监控、智能驾驶、人机交互和无人机监控等,在视频目标跟踪领域的深度和广度上有着不同程度的应用。本文围绕随机有限集在
针对目前自然场景图像中的文本检测存在的问题,本文对自然场景图像中的文本检测方法进行研究。本文设计了基于卷积神经网络的端到端的文本检测框架,实现提高文本检测精度、降低检测模型复杂度的目的。本文的主要研究内容如下:1.基于自适应特征选择和尺度损失函数的文本检测方法。日常生活中的文本非常多样化,并且存在许多杂乱的背景,为了解决这些问题,本文提出了一种自适应特征选择的神经网络。这个网络由两个部分组成,第一
近年来伴随各类社交与电子商务平台迅速发展,网络上用户生成内容出现爆炸式的增长。用户在社交平台与电商平台发表的评论中,包含了大量的文本信息,往往从多个方面反映了其对某些事件或者商品的情感倾向。分析这些包含情感极性的信息,能够有效帮助商家改进产品和改善服务,供政府相关部门了解舆论情况,以制定相应政策,同时也能让其他用户了解事件的社会评价。文档级情感分析方法能够获取整个文本的情感极性,但难以感知文本中不
自上个世纪六十年代,人脸识别初次在数字图像处理领域中崭露头角,已走过长达半个世纪的发展之路,识别研究也从单一的仿真环境到适应多种多样的复杂环境、也从简单且光照充足无变化的正脸图像到多种表情变化,大年龄跨度以及多重遮挡的人脸。虽然发展至今,在特定的约束环境下,现有诸多人脸识别算法可以取得优秀的识别效果,但若应用至实际生活中,剥离设定好的特定环境,面对现实生活中的低分辨率人脸往往识别性能不够理想。本文
21世纪以来,随着人民生活水平的提高,人民对于衣物的需求量越来越大,也促使织物的产量变得越来越大。为了满足这种现状,织物的生产过程逐渐智能化,其中,一个关键环节就是对织物缺陷进行检测。现在国内大部分企业选择传统的人眼检测法,但是这种方式易受检测人员的主观影响,同时也极其考验检测人员的体力与眼力,因而造成了检测效率及精度低下的后果。为了解决上述问题,越来越多的学者将机器视觉技术应用在缺陷检测领域,且
近年来,车外抛物问题越来越受到社会各界的关注。车外抛物这种不文明现象给交警部门以及市政部门及时清扫带来巨大挑战。如何有效地解决车外抛物问题已成为交警和市政部门亟待解决的问题。尽管深度学习的研究已经取得了很大的成就,并已广泛应用于各种场景(如:车牌识别和交通流量预测),但仍有许多问题尚未完全解决。例如,如何及时有效地检测出交通领域内车外抛物的问题仍然是一个亟待解决的问题。一般来说,传统的方法(如:支