基于BILSTM特征融合的领域相关命名实体识别研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:a724494702a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能项目的一个主要研究分支。本文针对自然语言处理中的一个关键研究点-命名实体识别任务展开研究,该任务的要点是识别出一个句子中存在一定语义的词或者字,比如,人名和地名。命名实体识别任务如今以各种神经网络为主要模型进行识别,近几年命名实体识别任务逐渐开始考虑将知识以及词特征融入到模型识别中,将语言习惯知识加入到图神经网络结构中;除此之外,研究学者对神经网络进行修改、增添不同的结构或者利用迁移学习以提升最终的模型识别效果,还有大型预训练模型BERT和其变体的出现。这些模型的提出虽然能够提高一定的效果,但是随着模型加深,在实际工程应用中出现推理的速度显著下降。因此本文提出一种轻量级,同时也能显著提升命名实体识别任务模型效果的神经网络结构。本文构建了基于双向长短时记忆神经网络和条件随机场的优化模型,提出了在词向量和字向量的基础上加入了两个额外的特征进行多粒度嵌入,并且结合字级和层级注意力机制,使得模型的识别效果大大提升,同时,在网络结构的输入层中加入了文本的实体表征,使得实体识别取得好的成效,通过对比,最后的识别效果得到了有效的提升。本文使用的数据分为两个部分,针对模型优化方面,采用了较为经典的人民日报三分类语料,包括了地名、人名和机构名称的识别,这三个分类数据分布均匀,并且具有一定的代表性,最后本文论证了在命名实体识别任务中加入了注意力机制后F1值提升了0.7%,加入人名特征后F1值提升了1.6%,加入地名特征后F1值提升了0.5%,加入特征融合后F1值提升了1.9%,总体来说F1值提升了2.6%,起到了优化的作用。在本文的第五个章节,采用了百度CCKS的中文命名实体识别比赛数据,同时经过人工和开源工作的标注筛选,对两种常用的神经网络结构在命名实体识别任务中的表现情况做了对比,比较了优化后的循环神经网络和优化后的卷积神经网络的表现效果,以及在同样的数据中,针对这两个网络结构在中国人名和外国人名的识别效果上做了对比。最后得出,在中文的命名实体识别任务中,长短时神经网络结构效果优于优化后的卷积网络结构,并且在中文语料上,中国人名的识别的F1值略高于外国人名的识别效果,都有着接近1%左右的提升。
其他文献
传统燃油汽车的使用加剧了能源的紧张和一系列环境问题,新能源电动汽车的出现在很大程度上解决了这一难题。因此对于电动汽车的研究受到了极大的关注,其中电动汽车充电问题是目前的一个研究热点。由于在实际的供电场合下,利用新能源(风能、太阳能)进行电能补给的稳定性欠佳,导致系统输出电压波动。为解决新能源对电动汽车供电稳定性问题,开展基于变换器的系统输出电压稳定的控制策略研究,对提升电动汽车充电系统的效率以及鲁
对环境中有毒、易爆的气体(例如H2,H2S,NO2)的快速、连续监测对人类生命和工业安全具有重要意义。先进的气体传感技术需要传感器具有高灵敏度,小型化和低功耗等特点。目前主流的商用气体传感器是基于电阻金属氧化物半导体(MOS)型的,但是由于它的体积较大且工作温度高于200°C,所以在先进的气体传感技术中并不受青睐。近年来,利用纳米材料(包括纳米线、纳米管和二维材料)来构建室温下高灵敏度、高选择性的
随着现代政府管理水平的提升和发展,社会对政府服务的要求也进一步提升。政府机构只有不断提升自身能力,转变服务态度,提升服务水平,才能满足新时期政府服务的需求。在这个大背景下,过去有着强制特性的税务部门的管理理念也发生了相应的变化。近年来,国家税务总局不断出台相应制度,以更好提升纳税服务水平,各地在实践中将国家的相关服务制度和要求落到实处,在一定程度上促进纳税服务体系的改进。随着减税降费政策不断深入,
“智慧”的概念在IBM提出之后在多种领域进行了广泛的应用,未来图书馆的服务也朝着智慧服务的方向发展。大数据时代,怎样运用区块链、人工智能、虚拟现实等前沿技术,推进图书馆改革创新,为广大师生提供更加智能、快捷、个性化的优质服务,已成为当前业界讨论的热点和焦点。基于此,本文以大数据时代高校图书馆智慧服务存在的问题及对策研究为课题展开研究。运用问卷调查、访谈等方式,对选取的连云港地区的六所高校图书馆的智
近年来,由于深度学习技术的快速发展和行为识别算法广阔的应用空间,基于深度学习的行为识别成为了计算视觉领域的研究重点之一。行为识别不同于图像识别,行为识别的关键在于学习视频的时空特征,而图像识别主要专注于图像的空间特征,因此行为识别对识别算法提出更高的要求,不仅需要学习时序特征又需要学习空间特征。而目前基于深度学习的行为识别算法,时空特征的学习上都存在偏向于空间特征的学习,而相对缺少对时序特征的建模
市场监管领域内的行政执法是经营秩序的维护者,对保障交易行为的有序推进起到重要作用。市场监督管理中的行政执法规范化影响市场经营行为的正常运行,基层分局的执法工作直接与市场的经营行为面对面,大到颇具规模的商超,中到连锁经营的社区店,小到维持生计的菜商贩,适之有效的规范化执法模式、方法对促进辖区内市场经济健康发展有着不可小觑的作用。同时,执法能否规范化,也是群众衡量市场监管部门履职是否到位的一个重要指标
近些年来,以比特币为代表的数字货币越来越多的出现在日常生活之中,其底层的区块链技术越发受到学者和科技公司的关注。区块链技术常应用于金融,溯源等领域,这都是因为其具有去中心化、不可篡改的特点。跟传统技术相比,区块链底层是无需任何中心节点的分布式网络,配合共识机制传递验证消息。每个区块链上的节点都拥有自主的权力去记录信息,但发布信息的权力则依托于共识机制决定。共识机制可以类比为多人互疑场景下,让众人都
21世纪,随着科学技术的飞速发展,人类已然迈入大数据时代。我们生活中处处可见数据,大数据对各行各业的运转产生了深远的影响。当前,大数据正不断应用于世界各国提升国家治理能力,大数据与政府公共服务相融合是当今局势发展的必然趋势。2015年,我国十八届五中全会提出实施“国家大数据战略”,将大数据提升至国家战略的高度;同年,为促进国家大数据发展,政府颁布下发了《促进大数据发展行动纲要》,详细部署了大数据应
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是移动机器人在陌生复杂环境中执行智能任务的关键,亦是当前机器人和无人平台领域的研究热点。移动机器人利用SLAM算法可以实现在陌生复杂环境中仅依赖传感器对四周环境的探测来建立环境地图,并计算自身在其中的位置。SLAM研究至今,可以完成对大范围场景的实时定位与地图创建。但是,传统的SLAM算法依然存在
中国是目前世界上锑矿产资源最丰富的国家,也是全球最大的锑生产国和出口国,其产量和出口量均占世界的80%左右,其中湖南省位于资江流域的冷水江市锡矿山地区被誉为“世界锑都”。目前,资江干流娄底段中锑浓度超《生活饮用水卫生标准》(GB5749-2006)限定值2.84倍,而支流中锑污染现象更加严重,影响了该流域的生态环境健康。由于现有的常规混凝吸附处理技术难以实现对水中存在的低浓度微量重金属锑的有效去除