基于深度神经网络的联合实体关系抽取

来源 :深圳大学 | 被引量 : 1次 | 上传用户:jasonzhong414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2012年来,谷歌知识图谱(Google Knowledge Graph)技术引发各领域研究人员的广泛关注。知识图谱本质上是一个由实体节点相互连接形成的网状语义知识库,其初衷是增强用户的搜索体验并提高搜索引擎的能力。但随着科研人员的深入研究,知识图谱技术已渗入各个研究领域,它以其本身强大的开放组织能力以及语义处理能力,为互联网时代的智能化信息组织与应用奠定了基础。知识图谱旨在清晰的描述实体与实体之间的相互关系,即实体关系对是构成知识图谱的基本单位,因此知识抽取作为构建知识图谱的根基,已成为近年来自然语言处理领域的重要研究内容。实体关系抽取有两种工作方式,传统的工作方式类似于流水线(Pipelined):对于输入的句子序列,首先进行命名实体识别,然后利用一定的规则将识别出来的实体两两组合,再进行关系抽取(分类),从而得到由实体和相应关系类型组成的实体关系对。第二种是联合抽取的工作方式,通过单个模型同时完成命名实体识别和关系抽取任务。本文以ACE05数据以及NYT开源数据集为研究对象,结合深度神经网络与注意力机制以及远程监督思想,提出两种新的联合实体关系抽取模型,同时对文本进行实体抽取和关系抽取。本文的主要工作包括以下两个部分:(1)传统的实体关系抽取模型会导致误差累积、信息冗余且在模型实际训练中并没有考虑两个子任务的相互关系。针对这些问题,本文提出基于共享底层编码和单双层Attention机制的联合实体关系抽取模型。这种方案保留了共享神经网络底层编码的学习方式,新增了能够分别计算实体词与实体词之间相互影响的E2E-Attention层,以及能够计算实体词与关系词相互影响的E2R-Attention层,在关系抽取模块采用了Bi-LSTM网络来考虑实体词的位置关系对关系分类的影响。通过共享底层编码的方式,利用非同时工作的单双层Attention机制增强知识抽取任务中实体词和关系词的依赖关系,然后利用反向传播算法来更新共享的底层参数,从而实现两个子任务之间的联合学习。在一定程度上强化了模型对实际实验数据的适应性,提升了实体关系抽取任务的准确率和综合性能。(2)提出一种半监督的基于序列标注与远程监督的联合实体关系抽取模型。这种方案基于序列标注策略,将输入句子通过词向量学习转化成1-hot的词向量,然后传给LSTM编码层以及信息增益层。其中,信息增益层主要包括计算实体关系对之间依赖关系的Attention层,以及利用远程监督思想得到的实体关系对的增益权重层。利用信息增益层中的两个子权重模块来强化模型对实体词和潜在关系类型的注意力,从而将实体关系抽取任务转换为端到端的序列标注任务,在时间和空间上实现了联合实体关系抽取任务,一定程度上大大减少了模型对人工标注数据的依赖,并且在垂直领域知识图谱的构建中起到十分重要作用。
其他文献
研究目的:通过对于湖北省中医院行肾穿刺活检术诊断为IgAN的63例患者的临床及病理资料的回顾性分析,探讨中医证候与IgAN的临床、肾脏病理之间的相关性,为肾脏疾病的中医证候客观化及采用中西医结合提供依据。研究方法:采用回顾性分析的研究方法,收集湖北省中医院肾病科2012年至2019年期间63例行肾活检术诊断为IgAN的患者病史、临床特征、病理资料及中医证候等资料。运用SPSS26.0软件对所获得的
现代工农业生产和医疗技术的迅猛发展,加剧了硝基芳香族化合物、金属离子及抗生素药物的使用,而不规范的操作和滥用致使污染物入侵水体,对生态系统造成严重危害。因此,寻求一种性能优异的材料来检测并同时去除水中的污染物,显得尤为迫切。通过共价键构筑的荧光多孔聚合物在气体存储与分离、化学检测和污染物去除等领域表现出巨大潜能。芘(Py)因其自身优异的光学性能及刚性结构在制备荧光多孔聚合物中发挥着重要作用,而具有
三维建模是计算机用于表示三维模型或三维场景的数字表示技术,它一直是计算机图形学的研究重点之一。伴随着社会的进步以及计算机硬件技术的快速发展,三维建模技术越发成熟,
随着计算机、网络通信和多媒体等技术的飞速发展,与之相关的各类多媒体应用也融入用户日常的工作与生活之中,例如,桌面共享、网络会议、游戏直播、网上购物、虚拟漫游等。为
为了加快建设资源节约型社会,国家大力提倡使用节能减排效果明显的新能源汽车。目前制约其发展的突出问题是电池的续航能力不足,而解决该问题的关键因素则是开发并利用能量密
大豆蛋白是一种优质的植物蛋白资源,乳化性是大豆蛋白非常重要的功能性质之一,大豆蛋白添加到食品中可以有效改善口感、稳定体系的乳化状态并延长货架期。大豆蛋白的乳化性质
RCD1(radical-induced cell death1)是重要的转录因子调节子,属于植物SRO(similar to rcd one)蛋白家族。研究表明SRO蛋白家族参与植物正常生长发育,同时是多条抗逆信号通路
障碍期权作为一种常见的奇异期权,其在理论上和实践中都有十分重要的作用,因此成为了研究的热点之一。但之前的研究多见于单资产的情况,虽然在不同的方向上进行了很多扩展,但大多是在障碍的存续方式上做些改变,从而得到不同的结果。而对于增加资产的情况,即使是2种资产的情况也所见较少。本文对经典的障碍期权进行了一定的扩展,将原生资产的数量增加到2个,并假设对障碍的观测是离散的。首先对单资产的情形下已有的结果进行
金黄色葡萄球菌和链球菌是奶牛乳腺炎的重要致病菌,抗生素已经无法有效的防治金黄色葡萄球菌和链球菌感染。疫苗免疫接种已经成为防治金黄色葡萄球菌和链球菌感染的有效措施
频繁模式挖掘的目标是在数据中找出所有频繁出现的模式,进而发现蕴含在数据中的潜在知识,根据所挖掘数据对象的种类,可以把模式分为事务、序列、项集和图等。在图数据中挖掘频繁的图模式称为频繁图模式挖掘,频繁图模式挖掘的目标是在数据图中找出所有出现次数大于给定最小支持度阈值的图模式。频繁图模式挖掘具有非常重要的理论与应用价值,众多学者也致力于研究新的更高效的频繁图模式挖掘算法。图模式匹配是频繁图模式挖掘算法