基于深度学习的中文命名实体识别研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:yaraksuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使得网上每时每刻都在产生大量的文本数据,这些文本数据通常含有较高的价值,为了从这些文本数据中提取到有价值的信息,命名实体识别作为其中的基础技术,其识别的效果对于后续的语义角色标注、文本分类和信息检索等任务将产生巨大影响,因此得到了越来越多学者们的关注。目前,中文命名实体识别存在预处理阶段字向量表示单一以及在特征提取过程中仅注重文本全局特征的提取而忽略局部特征的问题。本文首先提出了一个基于ATT-BERT的中文命名实体识别方法,解决字向量表示单一问题,然后在此基础上,又提出了基于TCNN-BERT的中文命名实体识别方法,即本文的最终方法,可有效解决上述两方面问题。本文的研究工作主要围绕以下两个部分:(1)基于ATT-BERT的中文命名实体识别研究。该方法首先通过BERT预训练语言模型根据文本的上下文语境生成上下文相关的动态字向量,充分表征字向量;然后将获得的字向量序列输入到BiLSTM中,通过前后两个不同方向的LSTM同时获取文本的上下文特征,即全局特征;接着融合了注意力机制,按照对命名实体识别所起的作用选择性的赋予不同的权重,起重要作用的特征赋予较大的权重,弱化甚至忽略无关特征;最后输入到CRF学习标签之间的依赖关系以优化整个标签序列,获取全局最优化的预测标签序列,实现了中文命名实体识别。实验结果表明,该方法能够取得不错的识别效果。(2)基于TCNN-BERT的中文命名实体识别研究。方法(1)解决了字向量表示单一的问题,且加入了注意力机制,增强了命名实体识别的能力,但没有解决忽略局部特征的问题,这是因为BiLSTM能够捕捉到文本的全局特征,但无法兼顾到文本的局部特征,所以考虑加入IDCNN建模学习文本的局部特征信息。因此,在方法(1)的基础上,本文又提出了基于TCNN-BERT的中文命名实体识别方法。首先依然通过BERT模型生成包含上下文语义信息的动态字向量;然后输入到由BiLSTM和IDCNN并行组成的双通道神经网络(Two Channel Neural Network,TCNN)中,并行获取文本的全局特征和局部特征;接着加入注意力机制,对特征进行动态权重的划分,挖掘文本深层次地语义信息;最后输入到CRF对标签序列进行约束限制,使之符合人类语言逻辑,输出概率最大的预测标签序列,实现了中文命名实体识别。实验结果表明,该方法能够取得理想的识别效果。图[18]表[10]参[61]
其他文献
煤矿区内浅表层水体除河流及浅层地下水外,还有因采煤而形成的塌陷塘,这些水体均为矿区工农业生产、渔业养殖及附近居民生活的重要水源,其水质状况备受关注。从水文动态看,塌陷塘水相对静止,河流及浅层地下水均处于流动状态(但前者流速较快,后者流速十分缓慢)。由于它们均发育于同一地区的浅表层,相互之间会存在不同程度的水文地球化学联系,因而研究同一地区不同动态的浅表层水体水文地球化学区别与联系具有重要的理论和实
微塑料是塑料垃圾在环境中经过物理化学机制作用下降解而形成的一种新型污染物,正在成为全球关注的环境热点。然而,目前对微塑料老化特性及机理的研究还很有限;重金属是土壤中普遍存在的污染物,在这些环境中很可能与塑料污染物共存,并且微塑料可以作为载体结合重金属形成复杂的复合污染物,将对土壤带来更严重的损害,重金属在土壤中的吸附行为已有学者研究。然而,微塑料对重金属与土壤的吸附行为的影响却很少被研究。因此,本
随着浅部煤炭资源日益枯竭,我国中东部煤矿大多已进入深部开采开拓阶段。与浅部相比,煤矿深部巷道围岩在高地应力、高地温、高渗透压以及开采扰动的综合作用下,其变形破裂机理更为复杂,大变形失稳等工程灾害问题更为严重。要实现深部围岩的长期稳定,不但需要制定科学合理、经济可行的支护方案,而且需要对支护后的围岩内部变形情况进行长期监测,从而保证围岩局部发生破裂时及时采取措施进行补强支护,避免巷道整体失稳。然而,
土壤是农业生产的必要条件,土壤污染不仅危害人类健康,对自然生态系统也会造成影响。当前我国农药、抗生素类化学药品的广泛使用导致土壤环境严重遭受破坏,相关研究多以单一污染物为研究对象,未考虑当前土壤多元联合污染,揭示多元联合污染下污染物的空间分布特征及对土壤环境的影响,对污染土壤的治理修复有着重要意义。本文以华北某区域土壤典型农药及大环内酯类抗生素残留为研究对象,综合运用统计学、环境生态学及地理信息系
随着科技快速发展,几乎每一部智能终端都搭载了全球卫星导航系统(Global Navigation Satellite System,GNSS)芯片,其提供的位置服务(Location Based Services,LBS),在出行、社交和购物等方面极大的丰富和便捷了人们的日常生活。2016年,Android7.0操作系统开放了安卓智能终端GNSS原始观测数据的获取接口,因此,在安卓智能终端上实现高
近年,深度学习引起众多学者的关注,卷积神经网络能够从图像中学习到更有效、更可靠的特征,这极大地推动了目标跟踪、行为检测、无人驾驶、人脸识别等研究领域的发展。传统目标检测算法获取的特征信息主要是低层信息,使得检测不准确,检测准确度较低。深度学习的发展,提出了一系列性能优良的目标检测算法,可利用多层网络模型从大量数据中学习抽象结构的特征信息,以此显著提高目标检测的精确度。本文针对SSD目标检测算法存在
通过在输入数据上添加少量精心构造的人类无法识别的扰动,可以使神经网络模型输出错误的预测结果,一般将添加了此类扰动的样本称为对抗样本。对抗样本具有迁移性,即利用已知模型构造的对抗样本仍然具有较大概率对其他模型形成有效黑盒攻击。这种黑盒攻击方式降低了构造对抗样本的代价,从而使得当前的人工智能系统暴露在严重的安全风险之下。为了更好的理解对抗样本的生成机理,探索深度模型在进行分类、识别等任务中所暴露的盲点
随着国内医疗信息化的发展,越来越多的医疗机构开始使用电子病历存储病患信息,由此也产生了海量的电子病历。电子病历命名实体识别能够挖掘出电子病历中存储的患者症状、疾病名称、检查措施等重要医疗信息,可用于建立智能电子病历系统,协助医务人员进行诊断决策,促进医疗领域信息化建设,近年来受到越来越多学者的关注。目前的中文电子病历命名实体识别任务中,存在着实体类别不平衡和特征稀疏的问题。针对实体类别不平衡问题,
生物质基碳材料是指以富碳生物质为碳的前驱体,通过不同形式的碳化反应形成的一类碳材料。生物质碳材料表面含有的剩余官能团可以作为极化中心转化电磁能,其材料内部存在的缺陷位点,可产生空间位阻和界面极化,有利于电磁波的吸收。本工作制备了系列木糖基碳复合材料,采用了 XRD、XPS、FT-IR、SEM、TEM和拉曼光谱对材料的组分和形貌结构进行了表征分析,采用矢量网络分析仪(VNA)测试了样品的电磁参数。结
煤矿智能化提出了智能感知、智能决策、自动执行的建设目标。作为云计算的扩展和延伸,边缘计算能够解决集中式云计算出现的网络拥塞、延迟较高、安全隐私等问题,能够为智慧煤矿系统在靠近智能终端设备的边缘提供数据计算、存储和网络服务。边-云协同工作为智慧煤矿系统提供满足不同需求的计算服务,能够提高智慧煤矿系统相关任务的实时性、可靠性。与传统工业相比,煤矿井下开采区域范围广、巷道呈长距离带状拓扑,系统中智能终端