融合字符多语义特征的命名实体识别研究与实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:longsir8481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络中的文本信息愈加丰富多样,但如何从海量非结构文本中提取有价值的信息却无从下手,因此亟需一些方法和工具来完成这项任务。其中一个重要的信息提取方法就是命名实体识别,其主要用于提取例如人名、地名和组织机构名等有特定意义的实体信息。近年来,命名实体识别得到了广泛的研究和发展,但目前基于Transformer编码器的中文命名实体识别方法仍存在以下问题:第一,在字符特征提取时,存在未充分利用字符相关多语义特征的问题,导致模型难以获取足够丰富的字符语义信息;第二,由于中文文本的复杂性,存在中文分词错误和简短或不规范等稀疏文本导致模型识别困难的问题。针对以上问题,本文从融合字符多语义特征的命名实体识别出发,进行的主要研究内容和创新工作如下:(1)本文提出融合双流特征编码的中文命名实体识别方法。该方法将字符的局部和全局语义特征有效融合,改善了Transformer编码器仅采用字符单一语义特征识别效果不佳的问题。首先,构建双流时序网络对句子中的字符进行编码,获得局部和全局语义特征,同时动态引入单词信息,避免分词错误,增强实体边界识别。其次,采用门控单元控制信息流,加权融合双流特征。最后,提出一个联结多种损失函数的Multi-loss损失计算方法,通过控制的模型参数自由度,提高模型训练和测试识别效果的一致性。实验结果表明,本文方法在保持并行计算的前提下,在Weibo、Resume和MSRA三个中文数据集上的1F值分别达到61.18%、95.44%和94.48%,均优于对比方法。(2)本文提出基于增强字符语义信息的命名实体识别方法。该方法通过融合相似语义字符特征的方式,增强字符语义信息,从而缓解模型对包含简短或不规范等稀疏文本和标注数据匮乏的语料识别困难的问题。首先,提出了一个基于BERT模型融合多种字符向量的字符表示方法,增强字符向量的表征能力。其次,提出了一个基于字符上下文的相似字聚类匹配方法,高效而准确的获得增强字符语义信息的相似语义字符向量。最后,构建了一个自注意力语义增强模块,根据句子的上下文语境对与字符匹配的相似语义字符进行筛选并划分权重,有效地增强字符语义信息。实验结果表明,在两个具有代表性的中文数据集上,该方法可以有效提升模型的识别效果。(3)本文设计并实现了一个中文命名实体识别开放系统,对本文提出的两种改进方法进行了验证和应用。该系统主要包含Web交互、实体识别和相似词匹配三个模块,其中实体识别模块可对三种形式的文本数据进行识别;相似度匹配模块可通过相似度匹配算法生成实体相关词语。最后通过系统测试,证明了该系统拥有健全的功能和良好的兼容性。综上所述,本文针对命名实体识别存在的问题,从模型结构改进、引入外部信息和损失函数优化等方面出发,提出了两种新颖的命名实体识别方法。经过大量实验和实际应用的验证,证明了本文提出方法的有效性和实用性。
其他文献
TSK模糊模型是众多模糊模型之中最具影响力也是应用最广泛的一种,它具有高可解释性和强大的逼近能力,已经在很多领域得到了成功的应用。但是,在实践中,模糊模型的性能取决于可用数据的数量和质量,需要充分的训练才能获得较好的泛化能力,而集成学习为构建模型提供了一种有效的方法,它通过结合多个学习器来完成学习任务,通常可以获得比个体学习器更加优越的泛化性能。但是当数据不平衡时会导致系统的训练精度下降,泛化能力
学位
肌内脂肪(Intramuscular fat,IMF)是一种肉质属性,定义为可食用肌肉中分散的脂肪颗粒的总数量,代表了肉的脂肪水平,广泛认为这一特性对猪肉的烹饪质量(即风味、多汁性)、消费者满意度以及消费相关健康问题有很大影响。过去常通过化学以及光谱等方法来测定IMF含量,但这些方法需屠宰后采样,为了在育种中选择肉的质量特征,开发体内方法是非常重要的。CT是无创断层图像,密度分辨率高,可将细小的点
学位
肝癌的致死率在癌症中位居前列,严重威胁着人体健康。在临床应用中,CT是医生进行肝癌诊断的常用方式之一,从CT影像中对肝脏和肿瘤区域的精准分割,对疾病的诊断和预后治疗具有重要的研究价值。传统分割算法多依赖于先验知识,不利于临床应用中的自动化扩展。近年来,深度卷积神经网络(Deep Convolutional NeuralNetwork,DCNN)被广泛应用在肝肿瘤分割任务上,通过局部感知和参数共享的
学位
在很多经典的深度学习网络模型中,多尺度特征融合结构都发挥着重要作用。多尺度意味着在不同粒度下对信号数据进行观察。当粒度更大更稀疏时,网络能够学到整体的趋势,获得全局性的高层特征;当粒度更小更密集时,网络能够学到更多的细节,获得局部性的底层特征。将不同粒度学习到的特征通过独特的空间通道均衡方法融合在一起,促使网络同时注重纹理和结构,从而保证模型的高效性和鲁棒性。在本研究中,我们将主要聚焦于深度神经网
学位
核磁共振成像(MRI)、计算机断层扫描(CT)等医学成像技术为病痛中的患者带来了福音。就MRI而言,通过在体外成像,便可探测体内病灶部位,在减轻病人痛苦的同时,一些隐蔽的心血管疾病、淋巴结恶性病变等在MR图像中无所遁形。然而,由于MRI受到接收器电路以及人体活动等不可控因素影响,噪声和伪影随即出现,成像质量发生了不可避免的退化。研究者们结合传统方法和深度学习方法对生成高质量医学影像进行了探索:一些
学位
图像融合一直是图像处理领域里的一个重要研究方向,其目的是将不同模态图像中的信息融合在一起,使得融合图像既包含多个模态图像中的显著信息同时降低模态间的重复特征。图像融合在很多计算机视觉任务中都有重要应用,比如多源检测、目标跟踪、监控等。在近几十年里,学者们提出了很多解决图像融合任务的算法。基于多尺度变换的融合方法和基于稀疏/低秩表示的融合方法是传统的图像融合方法中最重要的两种,但是这些方法在学习过完
学位
随着全球经济的高速发展,各类社会活动对能源的需求日益剧增,在精确的负荷预测帮助下,电力能源的生产,调度情况将会有极大的改善,从环境保护的角度上也将节约许多不必要的能源浪费。电力负荷预测是当今电力系统管理中最重要的一项任务之一,然而如今社会用电模式日益丰富,传统的负荷预测模型可能无法应对此类复杂的情况。本文首先简要阐述了负荷预测的相关概念,基于负荷的不稳定特性和周期性分析了电力负荷变化的本质,并列举
学位
据调查显示癌症是威胁人民身体健康的病因之一,治疗费用昂贵且不易治愈,而放射线治疗是治疗癌症的有效手段。放射治疗的成功很大程度上取决于对肿瘤的准确照射和对周围高危器官的保护。为了将规定的剂量输送到靶区,减少健康器官受辐射的影响,高危器官的分割对于放射治疗的正确规划至关重要。在临床实践中,分割由专家手动执行以规划放射治疗,手动分割既耗时又繁琐,结果可能因专家而异。自动分割技术可以提供准确稳健的结果,帮
学位
近年来,物联网设备(Internet of Things,IoT)发展迅速,时间敏感的应用如视频流、智能交通、数据共享和个性化多媒体等服务需求迅速增加。边缘计算应运而生,其核心思想是将一部分请求卸载到网络边缘节点进行处理,而不是将其上传到云服务器处理。但是,相比于拥有强大运算能力的云服务中心,在移动边缘计算架构中,边缘服务器的计算资源和存储资源通常是有限的,且分布比较分散。面对未来大规模增加的接入
学位
多源在线迁移学习利用多个源域的标记数据来增强目标域的分类性能,其中目标域以在线的方式接受数据。通过动态调整源域和目标域的权重,使得各个域能被自适应地利用,所以具有良好的泛化性能和极高的学习效率。然而在许多现实场景中的数据往往是不平衡的,其中的少数类样本被误分类将带来重大的损失。为了有效解决这样的实际问题,本文提出了新的多源在线迁移学习算法,具体的研究工作如下:本文提出了一种可以对目标域样本过采样的
学位