基于深度学习多特征融合的命名实体识别研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:liongliong475
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理众多任务中的一项子任务,也是从大量结构化和非结构化文本数据中挖掘可利用信息的一项重要技术。深度学习技术在自然语言处理领域以得到了广泛研究和应用。它强大的特征学习能力可以有效地挖掘文本的深层语义信息,有效的特征表达解决了中文命名实体提取任务中中文特征表达不足的问题。中文命名实体识别在各个领域中已得到广泛应用,主要识别特定领域的命名实体,例如在医疗领域命名实体识别主要识别患者的身体部位,疾病,治疗方法,症状等,并且也会识别常用命名实体,例如患者的姓名、居住地址等。完成这些命名实体识别任务面对主要困难是现有模型中文向量特征表示过于单一的问题,进而导致实体识别模型性能较差的问题。因此针对以上问题,本文采用深度学习的方法,使用BiLSTMCRF模型作为基准模型,引入中文笔画、部首两种内部特征提高命名实体识别模型性能。具体工作内容如下:(1)针对汉字潜在特征表征不足的问题,本文使用双向长短期记忆神经网络(BiLSTM)来提取笔画和部首基础特征。基于以上两个特征,提出一种基于笔画和部首特征的中文临床命名实体识别模型。该方法不仅可以捕获汉字内的笔画依赖性,而且还可以增强汉字的语义表示,从而提高模型的识别能力。该模型在CCKS-2017任务2基准数据集上进行测试,模型准确率达到93.66%,F1得分达到94.70%。与基本的BiLSTM-CRF模型相比,模型的准确率提高了3.38%,召回率提高了1.05%,F1值提高了1.91%。(2)针对汉字潜在特征表征不足的问题,并且为了更好、更均衡的融合笔画和部首这两种基础特征,本文提出了一种多特征自适应融合中文命名实体识别模型,采用加权串联方法自适应融合两组特征。该模型在Microsoft Research Asia(MSRA)和1998年1月至1998年6月《人民日报》数据集上测试,F1值分别为97.01%和96.78%。基于以上实验结果表明,有效的特征表示可以提高命名实体识别模型识别能力。
其他文献
现如今,随着大数据时代的发展,对数据的处理需求逐渐增多,现实世界的系统大多都可以被抽象成复杂网络。复杂网络中有一个特别重要的结构,就是社区,它是具有共同特性的个体的集合,在各种复杂网络中广泛存在,如社交网络中具有共同兴趣的用户往往能成为同一个社区。通过将网络中的社区结构准确高效的挖掘出来,不仅会帮助我们更好地理解网络的拓扑结构,还能更加全面的认识复杂系统的内部规律。但是,社区挖掘过程中出现的一些问
随着传感器技术与物联网技术的快速发展,无线传感器网络得到了广泛应用。其在军事侦察、目标跟踪以及入侵监测等方面应用需要确定节点位置,定位技术成为研究热点之一。现有基于接收信号强度指示(RSSI,Received Signal Strength Indication)的质心定位方法存在质心估计误差较大的问题,因此有必要对质心估计和误差修正进行优化以提高定位精度。对基于RSSI的质心定位算法从质心估计和
随着航空航天等高科技领域的发展,对材料性能的要求也越来越高。近年来,TiAl基叠层复合板材作为一种新型轻质结构材料受到了广泛关注。然而TiAl基叠层复合板材室温韧塑性差及高温强度不足,造成了其承载的局限性,从而制约了它的实际应用。基于多尺度复合构型理念,将Ti-Al-TiC混合粉末和通孔钛合金箔(Ti-6Al-4V)交替叠加,采用放电等离子烧结技术制备了通孔钛合金层/TiAl基叠层复合板材,研究了
软磁复合材料(Soft Magnetic Composite materials,SMCs)是一种用于电磁转换的基础功能材料,通过在金属或合金软磁粉末表面包覆绝缘物质,再辅助以粉末冶金技术制备得到。由于其具有高饱和磁化强度、高电阻率、低涡流损耗等优异性能,在中高频电磁器件中有广泛的应用前景。作为一种复合材料,包覆层的性质以及包覆技术对最终制品的性能会有很大影响。软磁铁氧体作为一种半导体材料,即具有
图像分割是一种将图像分成各具特性互不重叠的技术过程,它是人工智能和计算机视觉中最基础的预处理手段,它是目前AI和自动驾驶中最重要的技术分支之一,图像分割的好坏会直接决定图像融合和图像识别精度的高低。传统图像分割方法对于复杂背景下的图像分割精度有限,难以准确快速的实现像素级别的图像分割。而传统的全卷积网络FCN中持续的池化和降采样会降低特征图的分辨率,难以实现对图像像素语义标签的准确分类。为此,本文
钠离子电池凭借其资源丰富、绿色可回收等优势可作为锂离子电池的替代品,有望在新一代储能市场上占据一席之地。层状锰基氧化物(Na_xMn O_2)因低成本和高能量密度被认为是最具有发展前景的正极材料之一。但是,目前这类材料在充放电时面临体积膨胀严重,容量保持能力差和缓慢的Na+动力学等问题。因此,本文通过插层化学法对水钠锰矿型锰酸钠进行层间结构调控,探索其层间结构变化对存储Na+的电化学性能的影响,讨
随着工业化进程的不断发展,工业控制系统与现代信息技术融合越来越深入,传统工业控制系统与互联网(公用网络)的界限逐渐被打破,并逐渐摆脱传统的封闭性转型为互联性的系统。因此、网络攻击的存在不仅局限于网络信息安全领域,也逐渐蔓延到工业控制系统领域。各种工业信息面临被窃取、篡改、删除等危险,严重的工业控制系统攻击事故时有发生。目前,工业控制系统信息安全问题已经成为国内外的热点研究方向之一,研究内容包括深度
社会不断的发展进步,繁重的工作压力与身体素质的下降导致由于视网膜病变引发疾病的人群日益增多。因此对于视网膜血管结构的分析和准确检测被认为是大规模人群预防眼底疾病的首要任务。在眼科疾病的诊断中,对视网膜血管进行分割是非常有效的一种方法。而计算机算法可以迅速,准确的获取视网膜血管图像,而且客观,理智,成本较低,对眼科疾病的治疗以及观察具有重要意义。在方法使用中,由于受到图像获取仪器制约,捕捉到的视网膜
搅拌摩擦焊(FSW)是由英国焊接研究所(TWI)在1991年基于传统摩擦焊发明研制的一种新型高效的固相连接技术。搅拌头作为搅拌摩擦焊技术的核心组件,其结构设计对获得高质量的焊接接头起着决定性的作用。本文首先选用4mm厚度的2024硬质铝合金作为实验材料,采用圆锥螺纹搅拌头进行焊接。研究表明,在旋转速度1000r/min、焊接速度500mm/min,搅拌头倾斜角为2.5°,下压量为0.20mm,预热
在新课程改革的要求下,小学语文学科凭借独特优势成为贯彻学生德育教育的首选学科,如何权衡日常教学和德育工作的关系,探索有效的实践办法,使小学语文教师的德育教学工作能够