基于机器阅读理解的嵌套命名实体识别研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xinxinrenren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着信息时代的到来,互联网社交媒体经历了快速发展,在此过程中网络上的信息出现了指数级的急速增长,文本信息是其中相当重要的组成部分,命名实体识别是构建对话机器人、自动摘要等高级自然语言处理应用的基础任务。命名实体识别的研究推动了自然语言处理技术走向实用化。大部分研究都集中在非嵌套命名实体,而忽视嵌套命名实体,导致大量的信息丢失,特别是在地名、机构名和生物医药类词语较多的文本中含有大量复杂的嵌套命名实体。嵌套命名实体的识别可以得到大量层次更丰富的结构化信息,提升信息提取的质量和数量。本文围绕嵌套命名实体识别的深度学习方法进行了深入的探究分析,主要的工作内容和取得的阶段成果如下:(1)构建了基于BiLSTM-CRF的融入实体知识的命名实体识别模型基线系统,并对模型融入实体知识的作用进行研究,分析了对于嵌套命名实体识别所需要的改进。(2)在注意力机器阅读理解模型的基础,构建了基于注意力机制的实体查询嵌套命名实体识别算法模型,设计了指针位置的实体表示方法,在公开的嵌套命名实体数据集上取得较好的表现。通过消融实验分析模型发挥作用的主要组成部分。(3)对使用BERT预训练模型在机器阅读理解任务的应用进行分析,构建了基于预训练机器阅读理解的命名实体识别模型,对预测层进行优化,不需要对不同数据集进行适配,将平铺命名实体识别与嵌套命名实体统一,在公开的数据集上取得较好的表现。
其他文献
随着大量高清网络摄像机的部署,边缘视频分析已成为边缘计算中的一种典型应用。由于不少边缘设备的计算能力有限,边缘视频分析仍然存在很多性能问题。比如高分辨率、帧率的视
在多边贸易规则下,产业的国际化分工也变得越发重要,参与国际分工的企业受产业价值链领导地位的厂商管理,按照相关厂商力量的不对称度可分为市场、模块、关系、捕获和层级五个治理模型。制定适宜的营销策略促使产业升级向价值链利润高端爬升,已经成为中国企业特别是中小型企业的当务之急。本论文以AI线缆公司营销策略为研究对象,根据公司发展现状,结合OEM行业特点,在全球价值链治理的模型下探讨企业目前所处的环境。通过
雷达三维成像技术是在垂直于二维SAR成像平面的方向增加了新的合成孔径从而能进行三维成像。两维的SAR平面图是通过对回波信号作二维匹配滤波得到的,是真实三维空间投影在距离-方位平面上的结果,它的每一个像素值都是三维空间中同一距离-方位单元内不同高度的所有散射点回波叠加的结果,存在叠掩、阴影、伸缩等几何失真,造成空间三维信息的缺失。三维SAR成像系统能够对观测场景进行三维重建,除具备距离-方位向的分辨
随着大数据、云计算、人工智能等技术的快速发展,数据中心的数量和规模也在不断扩大,数据中心已经成为世界上消耗电能最多的能源大户之一。如何提升数据中心能效成为了当前数据中心研究的热点问题之一。数据中心网络(Data Center Network,DCN)的能耗占到数据中心总能耗的10-20%。因此,提升数据中心网络能效会对数据中心整体能效有明显改善。当前数据中心网络通过冗余部署大量的网络设备应对网络流
分布式能源是近年来兴起的利用小型设备向用户提供能源供应的一种能源利用方式。与传统的集中式能源系统相比,由于兼具发电、供热、供冷等多种能源服务功能,分布式能源可以有效地实现能源的梯级利用,达到更高能源综合利用效率。本文以青岛胶东国际机场能源中心项目为研究对象,在投资决策之前,对该项目进行全面技术经济分析的科学论证。本文主要采用文献资料法、案例分析法、定量和定性相结合的分析方法,分别从技术可行性、经济
面对全球气候变暖带来的环境压力,各国都在倡导减少对大气排放温室气体,我国也积极采取节能减排的措施,其中交通运输业的碳排放日益增加。随着居民生活品质的不断提升,促进了
可见光通信技术作为一种新型无线通信技术,以其绿色环保,无需频谱认证等优点成为了无线通信领域的研究热点,同时人们对可见光通信中的通信距离和通信速率也提出了更高的要求。但是LED的有限带宽严重制约了通信速率的提高。除了改善通信系统中的元器件,采用复杂的高阶调制,均衡是一种最本质的针对信道的非理想传输特性,通过补偿信道,改善系统的总传输特性,从而提高通信速率的技术。因此均衡技术在可见光通信中具有很高的研
随着过去数年社交网络的强势崛起,当今在互联网上产生的多媒体数据量之多已经超乎我们的想象。面对海量的多媒体数据,人们需要强大的跨模态检索算法来满足日益增长的相似性数据检索需求。当前,跨模态检索技术面临的最大的挑战来自于如何更好地克服不同模态数据之间的异质性差异,这种差异会导致语义鸿沟问题,影响检索性能。为了解决这一问题,研究人员提出了许多的跨模态检索算法,其中跨模态哈希的方法因为其检索效率高且存储成
互联网时代,实体经济与互联网深度融合,“互联网+”商业模式应运而生。在此背景下,企业对外投资行为及其引发的风险也受商业模式影响发生变化。现代风险导向理论下,客户的重大错报风险成为审计师重点关注的重要因素,也是审计工作执行和审计定价的起点。投资行为毫无疑问是审计师在评估重大错报风险时需要重点关注风险点。本文以2013-2018年上市公司为研究样本,基于企业实施互联网商业模式的背景,从现代审计风险导向
随着经济全球化进程不断加快,跨国经营在日趋激烈的国际竞争中发挥着重要的作用,越来越多跨国公司在中国设立分支机构。由于不同国家之间的文化差异,在华外企往往在日常的经营管理活动出现各种各样的跨文化沟通问题。论文以NM深圳分公司为研究对象,分析了该公司电子烟项目沟通管理中,由于中美管理者和项目组成员的文化背景不同,造成跨文化沟通不畅,影响项目和企业的运作效率、组织凝聚力和员工归属感等现象,探索了如何进行