基于深度学习的实体共指消解研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:wangyanling100wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的不断发展,各个行业会产生海量的文本数据。与此同时,使用自然语言处理相关技术挖掘数据间的联系,潜在的语义关系愈发重要且充满挑战。共指消解任务是自然语言处理领域的重要研究内容,广泛应用于自动问答,文本摘要,阅读理解,知识图谱等领域,具有重要的学术研究价值和商业使用前景。目前,在深度学习框架下的共指消解研究正在成为主流的研究方法,主要集中在如何使用基于句中的词嵌入信息有效识别实体和实体之间的共指关系。解决共指消解问题仅考虑词级别的信息有局限性,还需考虑文档中上下文的信息以及句子间的逻辑关系。因此本文为提高共指消解模型精度,从以下两个方面对共指消解展开了研究。(1)融合神经网络与全局推理的实体共指消解。针对文本内实体信息复杂及指代信息具有不明确性且对于文档中上下文全局特征考虑不周的问题,为探索更有效的共指消解研究方法,提出融合神经网络与全局推理的实体共指消解算法。首先利用神经网络模型抽取出文档中的实体和其前指词,其次结合句子的上下文信息进行全局推理,将此推理结果加入到神经网络模型中,从而提高实体共指消解的精确度。全局推理是对共指链进行文档级的全局优化与推理,可以结合句子间内在联系进行推理,同时挖掘实体的上下文语义信息。模型在Onto Notes5.0数据集上进行的实体共指消解实验结果,证明了该方法的有效性。随后又通过使用Bert-base预训练模型替换端到端共指消解模型中联合词向量的方法进行实验,该结果又验证了本文方法在共指消解任务上的有效性。该方法能有效地提高共指消解性能和更好地理解文本语义信息,最终模型性能在CONLL评测标准下F1值达到74.76%。比较本模型与近几年其他的共指消解模型实验结果,验证了本方法的有效性。(2)融合知识库信息的命名实体识别与共指消解联合模型。命名实体识别与共指消解都取决于实体的相邻文本信息的学习,目前二者在单个独立任务方面取得了最先进的结果,实际上二者也保持了高度的联系。为了提高实体共指消解模型精度,我们考虑一个基于知识库的命名实体识别与共指消解联合模型。该联合模型是基于跨度的端到端的网络架构,以全局推理优化后的共指消解算法模型为基础,使用维基数据作为外部知识库,融合了背景知识库中的实体表示,将命名实体识别任务与共指消解任务联合起来,实验证明该方法有效提升了联合模型中的任务精度。并且设置消融实验,以探讨全局推理与知识库模块以及注意力机制对模型性能的影响。将F1值作为评价指标使用,实验结果表明,本文的方法具有较好的共指效果。
其他文献
水、能源和粮食(water,energy and food,WEF)作为人类生存和发展的基础性、支撑性物质资源,一方面由于资源有限而需求量不断增加,日益成为制约现代人类社会发展的“资源短板”,一方面又因三者之间存在的相互影响和相互作用而形成错综复杂的“纽带关系”,日益成为影响可持续发展的重要因素和关注焦点,且对不同区域的影响和表现形式也不尽相同。欧亚大陆中高纬度干旱半干旱区人口集中,是全球主要粮食
学位
大气氮(N)沉降是全球生物多样性面临的三大威胁之一。由于工业气体排放等人类活动导致大气氮沉降量持续上升,对陆地生态系统的服务和功能产生了重要影响。目前,国内外关于氮沉降对陆地生态系统的研究大多围绕地上植物植被展开,而对地下潜在植被—土壤种子库影响的研究被忽略。土壤种子库能够通过“储藏效应”等机制来维护植物群落的物种多样性,是植物群落更新的重要资源,也是生态系统抵抗力和恢复力的关键因素,是生态学研究
学位
随着科学技术的快速发展,人类社会对智能化的需求越来越广泛,涉及各个领域。计算机视觉是人工智能领域的一个重要分支,它是通过计算机设备对生物视觉的模拟,实现对图像任务的理解和处理。目前,计算机视觉在监控系统、支付安全和自动驾驶等应用场景下发挥着重要的作用。然而,对于一些户外条件下的计算机视觉系统,容易受恶劣天气的影响,导致此类系统性能下降甚至失效。最常见的恶劣天气是空气中大量水蒸气、灰尘等悬浮粒子导致
学位
群落构建一直是生态学领域研究的热点,它不仅关系到生物多样性的保护与利用,也关乎生态系统功能的发挥与可持续发展。而研究生物多样性的环境梯度变化规律,可以在一定程度上探讨、理解群落的构建机制。鉴于此,本研究基于西营河流域沿海拔梯度形成的6个不同植被类型,从物种多样性、谱系多样性、功能多样性三个维度以及α、β两个层次,结合环境因子的变化,分析了多样性的分布格局及其影响因素,并探讨了植物群落的构建机制,从
学位
图像描述任务的目的是计算机自动生成图像的描述性语句。近年来,图像描述技术获得人们的广泛关注,主要原因包含两个方面:一方面,图像描述技术有着广阔的应用前景,例如盲人导航、智能监控、儿童早期教育等领域;另一方面,图像描述是计算机视觉和自然语言处理的跨模态技术。因此,这要求计算机不仅识别图像中的主要实体及其属性,联系实体间的关系,还要用自然语言描述出来。目前,图像描述的主要研究方法是基于深度学习的编码器
学位
多环芳烃(Polycyclic aromatic hydrocarbons,PAHs)是石油的重要组成成分之一,具有显著的致癌、致畸以及致基因突变特性,对生态环境和人体健康构成严重威胁。作为我国第二大石油产区,胜利油田的开发建设对黄河三角洲地区产生直接影响,因此本研究通过野外采样分析了黄河三角洲内陆荒地土壤、滨海滩涂沉积物与潮沟水、自然保护区内外以及不同年份下16种优先控制的PAHs污染特征,探讨
学位
在全球气候变化背景下,两栖物种的灭绝风险不断上升。横断山区是我国两栖物种较丰富的地区,同时也是我国两栖物种的主要保护空缺区之一。当前两栖物种在横断山区的分布状况并不明朗,气候变化对区域内珍稀濒危两栖物种分布的潜在影响也亟待发掘。本研究基于横断山南生物多样性保护优先区内2019年至2020年两栖动物的实地调查数据,利用优化后的Maxent模型和KISSMig模型,预测在物种最大迁移速率分别为0.5
学位
二型花(dimorphic flower)作为一种植物中广泛存在的多态性,由相同的基因型产生,是一种独特的表型可塑性的体现,在植物的极端环境适应和生殖保证中起着至关重要的作用,具有很高的生态和进化意义。二型花植物通常拥有两种花朵类型:一种是较大的色彩艳丽的开放受粉大花(chasmogamous flower),一种是较小的且花瓣颜色接近叶片绿色或无色的闭锁受精小花(cleistogamous fl
学位
图论起源于柯尼斯堡七桥问题,与数学联系密切,目前在计算机和数学领域都有很重要的研究和应用。图染色是图论的一个研究点,同样有着广泛应用,尤其适用于组合优化问题的解决。现实中的很多问题都可以抽象成随机图进而利用图染色方法去解决,如地图着色、任务调度、最大支配度、矩阵运算、通信编解码等等。从公开发表的文献中可以看出,目前已有的染色方法和结果只能解决抽象为特殊图或一些点数较少的随机图的现实问题,对点数较大
学位
户外视觉系统通常对天气因素比较敏感,尤其是雾霾和沙尘等。在雾霾和沙尘等恶劣天气下,空气中的浑浊媒质和悬浮水溶胶粒子极大地阻碍了目标场景到成像设备之间光线的正常传输,使得成像设备获取的图像或视频出现了一系列不良现象,例如对比度受损、图像细节丢失、场景颜色偏移和可见度下降等,导致户外视觉系统的工作效能严重降低。因此,随着智能化和视觉系统的发展与需求,对雾霾和沙尘天气下的退化场景实现可见度复原成为计算机
学位