基于模式和预训练语言模型的中文实体关系抽取研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:liongliong423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取作为自然语言抽取领域的重要子任务,在知识图谱、搜索引擎以及智能问答等下游任务中发挥着重要的作用,根据命名实体识别和关系抽取两个子任务是否相互独立,分为流水线式抽取和联合式抽取两种方法。近年来基于预训练语言模型的联合式实体关系抽取方法取得了不错的研究进展,但仍然会出现实体重叠、关系重叠以及实体冗余等问题,同时在进行关系抽取时没有充分利用实体本身蕴含的重要信息。特别是中文实体关系抽取,由于语言表达的特点,在进行实体关系抽取的第一步便是分词,在这个过程中常常会出现实体边界切分错误;并且由于中文语义比较复杂,实体关系抽取研究起步比较晚,而且相关研究不如英文那么热门。本文针对联合式实体关系抽取存在的问题以及中文研究存在的现实困境进行了深入的分析研究,提出了一种基于模式和预训练语言模型的中文实体关系联合抽取方法SC-ERE(Schema-based Chinese Entity Relation Extraction model),并在Du IE、San Wen、Fin RE以及ACE2005数据集上进行了实验,验证了本文提出的方法的有效性。本文的主要工作如下:(1)采用字词混合向量的方式将预训练的词向量与字向量相结合,同时加入包含位置信息的位置向量,提高中文分词边界切分的准确度,进一步提高模型的整体表现。(2)采用“先抽取头实体,再抽取特定关系种类下的尾实体”的实体关系抽取框架,允许头实体同一关系种类下存在多个尾实体,能够解决实体重叠和关系重叠问题。(3)提出了利用关系模式对基于预训练语言模型的实体关系抽取方法进行增强的方法,利用关系模式进行头实体所存在的候选关系种类以及存在关系的实体的筛选,可以增强模型对于特定关系以及存在关系的实体的关注度,解决实体冗余问题;(4)提出了利用实体类型信息进行尾实体抽取的方法,将尾实体类型编码与句子编码、头实体编码以及关系种类编码相结合,能够对尾实体的识别进行指导和约束,提高三元组抽取的准确率。
其他文献
文本生成图像任务是根据给定的文本描述生成图像,而图像修复任务是依靠受损图像中的残余视觉信息来生成受损区域。两个任务都是在给定的一个生成条件(图像或文本描述)下去生成高质量的图像。结合两个任务的优点,同时使用图像和文本描述作为生成条件,便衍生出新的图像生成任务(文本指导图像生成任务),其目标是将文本描述作为受损区域的视觉语义的补充信息来指导图像的生成。文本指导图像生成任务是具有多模态生成条件的生成任
学位
对于具有悠久的农业生产历史和广大乡村地区的我国来说,乡土建筑无疑是承载人民群众智慧结晶的瑰宝。然而在现代化不断推进的当代,大量的乡土建筑被千篇一律的钢筋混凝土建筑取代,“千村一面”成为了当代农村的常见面貌。对于一个活态的聚落,将其建筑风貌固定于某个时刻自然是不现实的,然而,任由其现代化导致建造传统的断裂也是令人惋惜的,于是,保护和发展成为了这些活态聚落面临的重要问题。在这样的背景下,本文将21世纪
学位
随着互联网用户的增加,用户之间交互所产生的数据慢慢累积,电子文本信息在互联网中呈现爆炸式的发展。当突发事件发生时,会有许多相关的事件信息在互联网中发布,如何从海量的文本中抽取结构化的突发事件信息也成为网络舆情分析的重要方面。目前突发事件抽取方法主要存在两个问题:一是在触发词抽取方法中,未能充分利用文本的上下文语义信息的重要性进行抽取。二是在论元抽取方法中,未能充分利用句子中的依存句法信息进行抽取。
学位
植物作为重要的食物来源、生态环境的重要组成部分,对人们的生活和发展息息相关。提高绿色植物表型的获取效率是现代智慧农业亟待解决的重要问题。高通量植物表型数据可以帮助研究人员对植物的生长状况进行定量分析。传统植物表型获取方法效率低下,操作繁琐且对植物存在一定的破坏力,影响植物的生长发育。基于图像处理技术的植物表型获取方法虽然在效率上取得一定的提高、并且也不具有破坏性,但是由于植物本身结构复杂,且生长环
学位
传统的有源像素图像传感器具有像素尺寸小、噪声低、灵敏度高的特征。但是基于帧的固定周期性读取方式,传感器的数据率和功耗会随着帧频和分辨率的提升呈现三次方的数量级上升,造成传输受限。脉冲图像传感器通过脉冲调制,将光强转换为时间域的脉冲输出,在同等数据带宽下完成了数据率的压缩,极大地提高了帧频。由于在固定阈值的触发输出形式下,脉冲图像传感器在随着光强增加灰度级损失严重,该噪声限制了脉冲图像传感器在高光强
学位
脉冲神经网络(Spiking Neural Network,SNN)也被称为第三代神经网络,它以脉冲事件驱动的方式实现了神经元突触计算,有望突破人工神经网络现阶段所面临的能源和吞吐量瓶颈问题,在机器人、自动驾驶、军事、航天等领域具有巨大的潜在应用价值。但SNN仍然存在着无法直接训练的难题。基于脉冲时间依赖可塑性(Spike-Timing Dependent Plasticity,STDP)规则的S
学位
近几十年来,人工智能技术发展日新月异,它被认为是第四次工业革命,5G、存储、大数据等多种技术的发展带来了数据的井喷,丰富多样的数据资源为人工智能训练系统提供了依据。本论文所研究的图像语义分割是计算机视觉领域的重要分支,具体来讲它的任务是从像素级的角度分割出图片中的不同对象,对原图中的每个像素都进行标注分类。简单的说就是在一副图像中,把目标从背景中分离出来。语义分割已经被广泛应用于需要提取目标具体轮
学位
国内社区卫生服务设施自发展起步以来,随着现实条件、人民健康需求、以及政策形势要求等不断变化,其发展目标、发展问题、以及发展方式等同样在发生改变。当前,在城市更新导向下,国内社区卫生服务设施发展进入新阶段,面临新的矛盾与需求,本文对北京市中心城区内社区卫生服务设施进行评价与优化研究,旨在为国内不同地区内社区卫生服务设施,在现实条件限制下、持续更新以匹配不同阶段的发展任务时,提供较为普适性的方法与思路
学位
网络对齐是映射不同网络间节点关系的方法,在生物信息、计算机视觉、社交网络领域有着广泛的应用。但是,网络对齐在仅利用网络拓扑图结构进行节点对齐时,存在其内部具有等价关系的节点无法区分的现象,导致了网络对齐结果评价指标较低问题。该问题并不是由对齐算法自身产生,而是图结构中等价类自身特性所致,因此在度量网络对齐结果时应考虑其中不可绝对匹配的节点等价关系。然而,当前主流的网络对齐度量方法没有考虑这一问题,
学位
新时代下的互联网高速发展,各种数据呈现爆炸式增长。其中新闻文本数据随着推送、流媒体平台、社交媒体的普及已广泛渗透进大众生活,人们迫切希望找到有效缓解信息过载问题的方法。近年来,深度学习的发展极大地推动了自动文本摘要技术的研究。但已有的方法仍存在一些不足,面向中文语料的新闻文本摘要算法没有充分利用中文分词特征,以及摘要算法的训练目标中欠缺对整体语义相关性的考量,导致摘要连贯性较差等问题,最终影响文本
学位