基于深度学习的命名实体识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:xuemun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的基础任务之一,是信息抽取、机器翻译、智能问答、语义分析等下游任务实现的前提,在自然语言处理技术走向全面化应用的过程中占有重要地位。目前命名实体识别对象可分为嵌套命名实体和非嵌套命名实体,基于深度学习的命名实体识别方法主要针对非嵌套命名实体识别展开研究,忽略了嵌套命名实体中蕴含的语义关系和结构信息,因此如何准确地识别嵌套命名实体亟待更深入地研究;对非嵌套命名实体识别的研究主要利用词粒度信息提升识别效果,但存在过度依赖词典、忽略单个分词工具产生的误差传递等问题,进而导致方法领域移植能力较差、识别效果不佳。因此,开发能够高效准确识别命名实体的算法仍是一项富有挑战性的工作。本文主要研究通用领域与网络安全领域的命名实体识别方法,根据命名实体不同的结构特性,分为嵌套命名实体与非嵌套命名实体,从分层区域穷举与注意力机制两个层面出发,有针对性地提出识别精度高、领域移植性强的命名实体识别算法,主要研究内容及贡献如下:(1)针对常规的命名实体识别方法无法识别出具有嵌套结构的命名实体,导致文本中细粒度语义及结构信息缺失,命名实体识别整体准确率不高的问题,提出一种分层区域穷举的中文嵌套命名实体识别方法。利用多层卷积神经网络递归编码候选实体的区域表示破解多标签分类难题,通过分层解码预测标签的方式减缓层迷失与错误传播,同时提高方法的识别性能。由于中文嵌套命名实体识别任务目前缺少被广泛认可的数据集,结合自动生成及手工标注方法构建新的中文嵌套命名实体识别数据集NEPD。在该数据集上的实验结果表明,分层区域穷举的嵌套命名实体识别方法能够捕捉嵌套命名实体内部与外部信息的关联关系,有效的缓解了层与层之间的错误传播对识别结果的影响。(2)针对融合词粒度信息的非嵌套命名实体识别方法中过度依赖词典、忽略单个分词工具产生的误差传递等问题,提出一种融合多源分词信息的命名实体识别方法。通过聚合多源分词结果的方式减缓分词错误,利用词对齐注意力机制编码分词特征,通过B、M、E、S标签分类融合分词特征避免信息损失,从而保证在不依赖词典的情况下利用词粒度信息实现有效的命名实体识别。在公开数据集上实验表明,与同类方法相比,具有良好的词粒度信息捕获能力,能够有效减缓分词错误对命名实体识别效果的影响。此外,为了验证所提方法可以有效解决专业领域缺乏词典,无法有效利用词粒度信息提升识别效果的问题,面向网络安全领域展开研究。实验结果表明,所提方法与基础算法相比,在精确率、召回率、F1值指标下,均具有更优的网络安全实体识别性能。
其他文献
2021年7月,河南郑州发生了千年不遇的特大洪涝灾害,洪水灾害威胁着人民的生命安全,造成了巨大的损失。洪水灾害发生后社会各界为郑州洪水救援伸出了援助之手,作为郑州本地的社会工作机构,S社工机构也积极参与到此次的洪水救援中,通过与政府、企业、社区等部门开展合作,在紧急救援阶段、过渡安置阶段以及灾后重建阶段为受灾居民提供了服务。本研究以S社工机构在郑州洪水救援的行动为研究对象,以协同治理理论为理论视角
学位
目的:比较欧几里德角膜塑形镜(Euclid)和露晰得角膜塑形镜(Lucid)矫治青少年近视对眼表的影响。方法:回顾2016年7月至2018年10月常熟市第一人民医院眼科就诊的青少年近视患者(81例,153眼),41例(77眼)配戴欧几里德角膜塑形镜,40例(76眼)配戴露晰得角膜塑形镜。观察两组患者在戴镜前及戴镜后1周、1月、3月的裸眼视力、屈光度、眼压、泪膜破裂时间(BUT)、结膜充血发生率、泪
学位
根据异丙醇生产工艺中异丙醇脱重过程的特点,设计了直接蒸汽压缩式热泵改进的脱重工艺。采用Aspen Plus软件对常规及热泵改进的异丙醇脱重工艺分别进行了严格模拟,并从年度总费用的角度对热泵改进工艺进行了评价。研究结果表明,热泵改进工艺较原工艺可节省年度费用397.57万元,其中能耗费用减少619.46万元/a,设备费用增加221.89万元/a,能耗费用降幅达72.2%,节能效果较为显著。热泵改进工
期刊
随着高新技术的飞速发展和武器装备的升级换代,无人机、无人车以及无人潜艇等无人平台在战场中得到了广泛应用,能够在复杂危险的环境下执行侦察监视、目标攻击、电子干扰等任务,逐渐成为智能化作战中不可或缺的重要力量。但是,无人平台在执行协同任务、开展毁伤评估时,还存在两个难点问题:1)受复杂战场环境和自身性能差异的影响,无人平台获取到的目标毁伤数据具有多模态性,导致不同无人平台对同一目标的毁伤评估结果不一致
学位
环己酮生产工艺需要消耗大量不同品位的蒸汽,文中对环己酮生产工艺中的蒸汽系统做了简单介绍,对MVR热泵和化学热泵2种技术在蒸汽系统中的应用进行了对比。结果表明:采用MVR热泵技术副产0.3 MPa(G)蒸汽11t/h,采用化学热泵技术副产0.3 MPa(G)蒸汽7.5t/h, MVR热泵的蒸汽副产量提高了46.7%;MVR热泵投资额为1 050万元,内部收益率54.4%,投资回收期1.84 a;化学
期刊
学位
目的:超声心动图是评估左室舒张功能不全(left ventricular diastolic dysfunction,LVDD)重要诊断依据,但目前临床上仍有一部分患者舒张功能不全诊断困难,尚缺乏一种准确评估左室舒张功能不全的方法。有创左心导管测量的左室舒张末压(left ventricular end-diastolic pressure,LVEDP)为评估左室舒张功能的“金标准”,本研究通过左
学位
目的:通过比较Dual刀与IT刀在表浅食管癌及癌前病变内镜黏膜下剥离术(endoscopicsubmucosaldissection,ESD)中的手术时间、切除速度、治愈性切除率以及出血、穿孔、狭窄等并发症发生率的差异,研究Dual刀与IT刀在表浅食管癌及癌前病变ESD中应用的有效性及安全性。方法:入组2017年9月-2020年2月期间就诊于常州市金坛区人民医院消化内科,治疗表浅食管癌及癌前病变采
学位
土壤数字制图(DSM)作为计算机与地理信息技术在土壤科学的交叉研究领域,正在深刻改变科学家制作土壤图的方式,从而为资源与环境系统模拟提供了更为精细的基础资料。然而,目前常用的地理统计模型和机器学习的制图方法仅使用土壤采样点观测值与对应协变量进行空间建模与制图,难以考虑采样点周围协变量及其上下文信息,从而限制了数字土壤制图精度的进一步提高。近年来,深度学习中卷积神经网络通过卷积与池化可以充分利用采样
学位
由于医疗资源分布不平衡,发达地区大医院医疗水平要强于不发达地区的医院,所以在不同的医院之间共享电子病历是提高医疗服务水平的有效途径。现有的使用区块链和基于属性的加密算法共享电子病历和控制电子病历共享细粒度的研究中,由于基于属性的加密算法需要可信第三方来生成密钥,所以可信第三方有能力解密所有的电子病历,无法保障电子病历的机密性;同时,区块链的匿名性让电子病历的真实性得不到保障;另外,在使用智能合约对
学位