基于词汇增强和多特征的中文命名实体识别研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:opcs2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息抽取系统的一个重要环节和基础技术,命名实体识别任务的目标是从非结构化的文本中提取出含有特殊意义或有指代性的词语,其识别结果被用于关系抽取、文本摘要等。对于中文命名实体识别而言,句子的表达是字符接着字符的。尽管一些研究工作在中文分词中取得了成果,但分词误差仍然存在并影响下游模型的识别效率。因此,中文命名实体识别模型通常是基于字级别的,但基于字级别的模型忽略了中文词汇的语义信息,而词汇信息对于确定实体边界和类型有重要意义。本文结合双向长短期记忆网络和卷积神经网络提取中文字符特征,使得提取的特征兼具长距离依赖的位置特征和局部的形态特征。在不分词的前提下,通过字符串模式匹配的方式引入字符对应的词汇信息,包括以字符开头、以字符为中间部分、以字符结尾以及单字成词的词汇信息并以词频加权平均的方式提取词汇特征。使用预训练的BERT-wwm模型来提取字符序列的预训练特征。通过门控机制将词汇特征融入到字符特征中,以实现对字符的词汇增强。将经过词汇增强后的字符特征和预训练特征线性拼接,构成多特征的策略模式,从而改善模型的识别指标。本文在三个中文命名实体识别的基准线数据集Resume、MSRA、Weibo上进行了实验,包括对比实验和消融实验等。实验结果表明本文提出的中文命名实体识别模型与已有的模型相比,实体识别的精确率、召回率和F1值均有提升。
其他文献
计算机技术在软件方面的发展离不开大量的编码,这些源码许多都能够通过互联网方便获取到。虽然这方便了大家对编程的学习,却也导致在编码上存在大量抄袭行为。因此,方便、有效、快捷的代码抄袭检测方法在当前的时代背景下就显得尤为重要。传统的代码相似性检测方法大多利用程序的属性或结构信息,随着时间的推移,对属性的选择和统计越来越纷杂,对结构的分析也越来越复杂。对相似度检测方法的设计者来说,选择哪种属性和结构信息
学位
在如今的大数据时代,面临与日俱增的计算需求,分布式计算已经成为了各大领域中的研究热点。大量的计算需求往往包含着庞大的计算逻辑,将这种计算需求进行分解得到的众多小的计算任务时,可以利用分布式任务调度框架将这些计算任务分配到各计算节点中,实现任务的并发处理。将这个庞大的计算逻辑模型化为一个工作流,计算逻辑中众多的计算任务视为工作流中环环相扣的阶段。因此,设计出一个处理这种工作流的分布式任务调度框架则显
学位
互联网应用在近些年取得了飞速的发展,随之而来的是海量的数据,这些数据的治理给企业带来了许多的挑战。数据质量管理作为数据治理的重要组成部分,主要用于保证相关数据满足预期的使用目标,有效的数据质量校验能够为企业避免巨大的损失,数据质量的相关研究正在引起越来越多的人们的重视。数据质量校验系统是数据高质量的重要保证。一方面,传统数据质量校验系统对校验规则采用硬编码的方式,这有很大的局限性,修改校验规则需要
学位
人脸识别系统将从摄像头读取到的人脸图像与事先存好的标准人脸进行比对,我们把存储标准人脸图像的库称为原型图像库。作为人脸识别系统的基础,原型图像库设计的好坏与否,对整个系统的识别性能影响很大。目前原型图像库构建大多停留在人工采集标准人脸的方法。为降低构建时所耗费的经济、人力成本,论文设计了一种原型图像库的构建技术,由基础支撑和扩展支撑两方面组成,将用户自行上传的图像作为标准人脸,省去了专门的人脸图像
学位
随着电子商务产业的迅猛发展,越来越多的消费者选择在电商平台购买产品和服务,而对于该商品的评价是消费者选择购买与否的一个重要参考。虚假评论隐藏在电商平台的海量评论数据中,对消费者有效选择商品会产生严重干扰。为进一步实现对虚假评论的有效识别,以电商平台的评论数据为切入点,构建了有标注的中文虚假评论数据集,基于一个双层图卷积网络建立了一个虚假评论识别模型,且在模型的基础上设计和实现了一个电商平台虚假评论
学位
随着计算机技术的进步,人们越来越依赖于方便快捷的网络购物,从而带动了我国物流业的发展。随着快递使用人数的增多,快递面单泄漏用户隐私信息的事件层出不穷,对快递用户的财产乃至人身安全造成危害。因此近几年来,保护快递隐私信息成为物流业研究的重点。为了解决快递面单隐私泄漏问题,在分析了现有隐私保护方案的基础上,根据系统的实际需求,设计了一种基于身份加密(Identity Based Encryption,
学位
近年来随着人工智能技术的发展,越来越多的领域开展了自动评分方面的研究。中文论述题评分是考试自动评分中较为重要的一个领域,人工评分过程往往要耗费较多的人力资源,并且不能完全保证公正性,而设计实现一个完备的中文论述题自动评分系统将有效解决这几个问题。目前自动评分在中文论述题领域方面的技术仍然不够成熟,存在着准确度低、适用性窄等较为普遍的问题,中文论述题因为判分过程较为复杂,无法用简单的自动评分系统进行
学位
防范影子银行风险是防范系统性金融风险的关键。作为影子银行的重要组成部分,资管行业的高速发展,在实现居民财富保值增值、拓展银行新利润渠道的同时,也给金融系统带来了潜在的风险。本文选取双重差分法,使用2016—2019年15家上市银行的季度数据,实证检验了2018年严监管政策——资管新规对银行盈利能力的影响。结果表明:资管新规显著降低了银行的盈利能力;当银行业务更多元,面临更高风险时,资管新规的负面影
期刊
随着信息技术的飞速发展,企业的应用数据正经历着爆发式增长。由于团队逐渐庞大,随之而来会遇到诸如数据不一致、读脏数据等数据质量问题。面对多源的数据,传统的数据管理与服务方案如今已难以满足大规模高复杂度的企业应用需求。规则引擎作为通用的策略规则管理框架为解决问题提供了新的思路。已有的技术受限于单体应用架构或特定规则引擎框架,导致其系统耦合度高、规则处理不可定制,难以承受多任务、大吞吐量的应用需求。对此
学位
随着互联网技术和深度学习技术的不断发展,人们越来越关注成本低、灵活性高和性价比高的在线教育,将深度学习应用于在线教育系统也得到了快速发展。客服业务是各大企业和用户交流沟通、获取用户体验、服务用户的重要一环。将基于深度学习的在线教育应用于客服业务将大大提高客服业务的效率,并节省很多成本,所以打造一款在线客服智能教育系统有着重要的作用。设计了一种在线推理算法和离线算法训练相结合的智能评分系统。在线推理
学位