基于深度学习的信息抽取研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:axu4g00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展,以及在自然语言处理领域的不断突破,基于深度学习的实体识别和关系抽取任务已经逐渐从由于具有标注成本高、误差率高、局限于特定领域等诸多缺点而导致实际应用价值低、落地成本高的窘境,发展到了可以在少样本、复杂关系、跨领域的应用上实现一定价值。传统的实体关系抽取任务方法主要有两大问题:(1)割裂实体识别与关系抽取两个任务之间的联系。即关系抽取任务是基于实体识别任务的结果,且关系抽取任务结果对于实体识别任务没有起到修正作用。此问题会直接导致误差传播,即若前一任务的结果出现错误,后一任务的结果必然错误,从而导致模型效果变差,准确率降低。(2)无法形象刻画多实体之间的复杂关系。传统实体关系抽取任务采用BIO序列标注的方式对实体、关系进行预测。然而,在实际应用过程中,常常存在实体重叠、关系重叠等诸多特殊情况,需要设计比较复杂的联合标签才能完成对实体关系三元组的抽取。然而标签越复杂,其出现的次数通常就会越少,从而引发严重的样本不均衡问题,导致抽取效果变差。为解决上述问题,本文提出一种基于信息传递的片段分类方式进行联合实体关系抽取。首先将两个子任务同时放到模型里进行训练,使两个子任务共享词嵌入层的权重,然后在综合两个子任务的损失函数进行反向传播更新各神经元权重。对于实体识别任务,在最后输出层选择出所有可能是实体片段的候选集,并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务,则综合文本序列、实体片段及实体边界进行关系抽取预测。实验结果表明,该方法可以有效解决上述错差累积和关系重叠的问题,减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本,与诸多实体关系抽取baseline模型相比有明显优势。同时,可以因可使用同一套标注规则,也为跨领域进行实体关系抽取带来更多的可能和便利。本文为验证该模型优化方法的扩展性和通用性,构建了化学文献实验方法数据集。该数据集为从化学领域顶级会议ACB中选择催化剂制备文献共100篇,人工定位到该文献中催化剂制备章节,标注实体、关系共14类,实体共1000余个,实体间关系共300余对。随后对于该数据集及先前训练模型进行迁移学习,并针对该数据集进行少样本下的模型优化。实验结果表明,在跨领域小样本数据集下,使用本文提出的优化方案后的模型后,实体关系抽取效果明显优于基于规则的抽取方式和先前模型,同时在实际应用场景下具有一定可行性。
其他文献
血压是人体最重要的生理参数之一,也是预防和治疗血压相关疾病的重要指标。日常生活中,通常使用基于示波法或柯氏音法的血压计,只能获得某一时刻的血压值,难以实现连续测量。基于光电容积脉搏波描记法(PPG)或心电图(ECG)信号测量血压是目前常用的无创连续血压测量方法,已经在某些可穿戴设备上实现。但是,此类方法的检测精度尚未达到美国医疗器械促进协会(AAMI)或英国高血压协会(BHS)所制定的血压计测量标
学位
多视数据是指同一对象不同视角的观测数据,例如多视角图像或视频,或者是同一数据的不同特征表示,例如图像的直方图、边缘和梯度等特征。由于多视数据较单一视角数据具有更全面更丰富的信息,近年来多视数据的表示分析和聚类分类研究成为了数据挖掘和机器学习领域的研究热点。其中,在多视聚类方面,研究者提出了多视子空间聚类和多图聚类等方法,并在多视图像聚类、图像分割和显著性检测等方面取得成功应用。多视聚类的关键是利用
学位
随着我国医疗改革的不断推进,人们对医疗质量和医疗安全的要求也越来越高,医疗卫生工作者也将医疗质量和医疗安全视为工作的重点。低风险组疾病死亡率能够较为敏感地反映医院的医疗质量问题,研究低风险组疾病死亡率及其影响因素有助于及时发现医院医疗质量中可能存在的问题,对提高医疗质量有重要意义。论文以2016-2018年各省三级综合医院的低风险组疾病死亡率为研究对象,利用空间统计学的优势,探索低风险组疾病死亡率
学位
随着云计算以及物联网的快速发展,语音识别、自然语言处理、可穿戴设备以及在线游戏等一系列计算密集型、延迟敏感型应用程序不断出现,然而智能移动设备(Smart mobile devices,SMDs)的电池、内存、CPU和无线介质资源有限,不能高效地处理这些应用程序,为了解决SMDs存储容量有限、计算能力不足的缺点,移动边缘计算(Mobile Edge Computing,MEC)可以解决此难题,通过
学位
蜉蝣目昆虫,俗称蜉蝣,是一类原始的昆虫。蜉蝣目昆虫线粒体基因组中研究发现扁蜉科、小蜉科和四节蜉科都出现t RNA基因重排现象,扁蜉科3属5种出现两种不同的排列方式,即赞蜉属Paegniodes的桶形赞蜉Paegniodes cupulatus呈现22个t RNA结构,而高翔蜉属Epeorus和拟亚非蜉蝣属Parafronurus形成trn I-trn M-trn Qtrn M重排且两个trn M高
学位
酒吧与夜店等城市异质空间与青年群体的关联研究是需要关注的重要议题。基于对作为城市异质空间典型代表的夜店及青年群体的质性研究,对二者之间的内在关联逻辑进行了探讨。本文从性资本的视角出发,对以夜店为代表的城市异质空间中的青年群体行为进行分析。研究方法主要采用参与式观察和结构式访谈两种以及滚雪球的方式拓展夜店受访人群。研究指出,夜店等城市异质空间之所以被青年群体认同,本质是城市异质空间属性迎合了青春消费
学位
前列腺癌的诱因主要有遗传、环境、年龄和种族,其中遗传因素是主导因素。SPOP是前列腺癌中点突变频率最高的基因之一,可能在癌症形成早期就发生突变,其突变是前列腺癌发生发展的潜在驱使因子,同时SPOP突变与TMPRSS2-ERG基因重排两个遗传事件在前列腺癌病人中互斥,提示SPOP突变引发的前列腺癌可能具有独特的病理机制。SPOP是E3泛素连接酶接头蛋白,参与特异性底物的识别以及蛋白酶途径介导的蛋白降
学位
蓝莓属杜鹃花科(Ericaceae)越橘属(Vaccinium spp.)多年生灌木或小灌木,因其富含花青素等功能成分而备受关注,近年来南方省份蓝莓种植面积也发展迅猛。蓝莓根表面不被根毛,其营养吸收主要依赖与蓝莓共生的菌根真菌,但蓝莓与内生菌的共生机理及内生菌的开发利用仍缺乏系统研究。本研究通过分离纯化并筛选鉴定出具有促进蓝莓生长的内生菌根真菌;分析内生菌根真菌促进蓝莓生长发育的机理;内生菌回接后
学位
随着电子商务的快速发展和形式的演变,直播成为众多零售商选择的销售方式。CQ珠宝商作为其中的一员,在通过直播获得业绩大幅度增长的同时,库存压力也一直在攀升。本文对CQ珠宝商以及直播带货的行业背景进行分析,总结了该企业在库存管理方面的现状、存在的问题,并对形成问题的原因进行了剖析,得出该企业在库存管理的制度流程、管理方法,以及软件配套上等都存在优化改善的必要性。本文基于ABC分类法、经济订货批量法、生
学位
随着我国经济越来越融入世界经济的版图,各地区的产业集群正愈加有力地影响着中国经济的发展。产业集群的发展和壮大,可以最大程度上实现资源和生产要素的配置优化,提高企业产品竞争力,生产专业化程度。同时也是推动地区经济可持续发展的有效途径。张庄街道作为城郊板块,得益于良好的区位和交通,工业实力雄厚,长期以来都是盐都区工业重镇,而齿轮产业则是张庄工业的重要支柱之一。但近年来,随着土地资源供给减少等原因,张庄
学位