基于深度学习的中文命名实体识别研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:skywalker0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)任务在自然语言处理领域占据着基础且关键的地位,其目的是识别出文本中存在的具有特定意义的实体名称。命名实体的识别结果将会影响诸如信息提取、情感分析和知识图谱等一系列自然语言处理的后续任务。当前对深度学习的研究进展不断深入,利用深度学习来解决命名实体识别任务将有非常重要的意义。本文采用深度学习方法针对命名实体识别任务主要做了以下工作:1.针对目前主流的命名实体识别网络模型Bi LSTM所存在的计算效率低下,随着序列增长,长序列建模能力减弱的问题,提出一种基于BERT-Deep CAN-CRF的命名实体识别模型。BERT模型根据上下文信息动态生成字的嵌入表示,解决一词多义问题的同时可以提取丰富的底层特征;Deep CAN是由3层卷积神经网络和多头注意力机制结合并且迭代多次构成的深度卷积注意力网络,既可以提取长序列文本特征也可以并行计算,兼顾准确率和效率。将该模型在SIGHAN2006数据集上进行实验验证,F1值达到93.37%。2.针对基于字的中文命名实体识别模型不能利用词信息问题,本文利用生成对抗网络思想引入分词任务,辅助命名实体识别任务的训练。采用生成对抗网络思想提取两个任务共享的词边界信息,同时过滤掉分词任务的特有信息,其中鉴别器是能否提取公有边界信息的决定因素,因此本课题提出一种选择卷积注意力网络作为鉴别器。将该模型在SIGHAN2006数据集上进行实验验证,F1值达到91.82%。3.从现实应用出发,本文采用B/S架构模式,使用Easy UI+Spring Boot+Mysql技术开发一个中文命名实体识别原型系统,将中文命名实体识别结果可视化。本次设计的中文命名实体识别原型系统主要包括三个模块:Web前端页面模块、数据存储模块和命名实体识别模块。
其他文献
在量子信息理论中,蕴含在量子态中的量子关联是一种非常重要的物理资源,其中量子纠缠在诸多量子关联中尤为重要.在两体复合量子系统中,关于量子态的纠缠探测与纠缠度量已经有许多有价值的研究结果.然而在多体复合量子系统中,由于量子态的可分情况比较复杂,涉及诸多可分性定义,比如完全可分、半可分、强k-可分以及k-可分等,因而探测其可分性和度量其纠缠程度是比较困难的.如何识别两体或多体量子态是否纠缠及如何量化其
随着信息时代的高速发展,科技水平的逐渐提高,各个领域对计算机和Web等软件系统的依赖程度不断提高。尤其是在金融、军事等领域,人们对软件系统的安全性和可靠性提出了更高的要求。然而长期不间断运行的系统中仍然存在着大量的软件老化问题,使得系统的安全性和可靠度受到了严重威胁,产生无法估计的损失。对于已经发生了老化的软件系统,通过主动地进行抗衰操作,这样就可以有效地避免软件故障的发生或者失效。如果我们能够准
桥式起重机通常安装在车间上方,其工作区域横跨整个厂房,由于独特的结构形式和安装位置,不受地面设备及物料的限制,使得结构下面的广阔空间得以充分利用,故常被作为工厂内物料搬运的主要设备。伴随现代工业的快速发展,物料的重量和搬运频率急速增加,桥式起重机繁“”重”的工作特点也越趋明显,随之引起的事故也越来越多,相关的损失和不良影响也越来越大,因此对桥式起重机整机工作状态进行研究,具有很强的现实意义。在桥式
随着计算机与互联网的不断发展,社会逐渐进入了智能信息化时代,各行各业的信息也呈指数增长。近些年新技术与专业领域相结合成为了一种研究趋势,也不断地为人们提供了诸多便利,知识图谱的快速发展可以将这些杂乱的数据信息关联起来,提升数据的利用率,能够更好地进行知识挖掘。现有知识图谱大多都面向的百科知识领域,在特定领域方面的知识图谱构建比较少,因此,本文针对特定领域的知识图谱构建和文本选择系统展开研究。主要研
阳极键合(Anodic Bonding)技术被广泛应用于微机电系统(MEMS,Micro-Electro-Mechanical System)封装领域。随着MEMS器件不断向微型化、集成化的发展,封装质量的好坏成为MEMS技术待解决的难题。阳极键合技术具体操作简单,而且对键合材料的表面粗糙度以及本身性能要求较低,键合后形成的键合界面残余应力小,能够达到较高的结合强度,十分适合用于MEMS技术的封装
随着装备制造智能化、微型化的快速发展,计算机零部件、集成电路、引线框架等越来越多的应用在精密仪器中,各种精密仪器也对其基础核心零部件的力学要求越来越高,不仅仅对零件的尺寸精度,还对其力学性能、导电性能都提出了更高的要求。薄带作为制造、加工领域的原材料,其在轧后的力学性能,会对生产精密仪器核心部件的质量产生重要影响,薄带在轧后的力学性能,与轧制过程中产生的残余应力密切相关。因此,本文针对薄带在轧制过
作为煤炭生产大国,煤矿事故是威胁煤矿安全生产的最大威胁。随着“互联网+工业”的发展,越来越多的学者将精力投入将计算机技术应用到煤矿事故领域的研究中。通过对已有的海量煤矿事故案例文本数据进行归纳总结,结合知识图谱理论和技术,构建煤矿安全生产知识图谱,挖掘事故实体间的关系,对煤矿生产过程进行监控,从而避免煤矿事故的发生。命名实体识别是构建知识图谱的第一步工作,为给煤矿安全生产知识图谱的构建奠定基础,针
视频图像去模糊是计算机视觉领域的一个研究热点。近年来,随着计算机信息技术和人工智能的迅速发展,智能手机、数码相机等摄影设备也得到了日新月异的发展和普及。作为当今被最广泛使用的信息载体之一,视频图像更加直观地向人们展示了大量有用的信息,能够为人类记录美好生活、分享快乐回忆、以及传递人与人之间的情感。另外,在应用方面,无论是校园、工厂、煤矿下等场景的监控都需要高清稳定的视频图像,那么去除视频图像中的模
随着科技的飞速发展,直流伺服系统的控制精度和稳定性也得到了提升,其在工业生产和日常生活中得到了更加广泛的应用,但是直流伺服系统的工作环境复杂多变,而且在实际运行过程中存在参数时变的情况,传统整数阶PID控制存在着一定的局限性,分数阶PID由于引入了分数阶次,因此在参数的选择上更加灵活,能够提高直流伺服系统的控制性能。针对直流伺服电机跟踪性能与抗扰性能的独立控制问题以及重复输入信号下的跟踪问题,本文
β-Ga2O3是一种新型氧化物半导体材料,具有宽禁带,良好的光学性能,高击穿场强和抗辐射性,在高功率、低损耗半导体器件制备方面具有很大优势。电子辐照可以在β-Ga2O3晶体内形成氧空位(VO)与氧间隙(Oi)缺陷。然而,目前关于β-Ga2O3缺陷的研究主要集中在生长过程中形成的缺陷,而关于β-Ga2O3电子辐照缺陷的研究很少。这严重制约了β-Ga2O3器件性能的辐照调控技术发展,进而影响了β-Ga