基于混合神经网络的中文命名实体识别研究

来源 :上海师范大学 | 被引量 : 1次 | 上传用户：nash86

【摘要】

：

【作者】

：

汪浩文

【出处】

：

上海师范大学

【发表日期】

：

2020年01期

【关键词】

：

中文命名实体识别神经网络完全自注意力机制位置意识传播联合学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体识别(Name Entity Recognition,NER)是自然语言处理的基础任务,目的是在未处理过的原始文本中标注出所需的具有特定意义的实体。命名实体识别是将非结构化的文本数据转换为结构化数据的关键步骤和技术手段之一,在自动问答、信息检索和关系抽取等任务中都有关键作用。因此对命名实体识别的研究有着重要的意义。随着深度学习的发展,英文命名实体识别技术近几年有着显著的进步。但中文有着自身的特点,相对于英文文本也更为复杂。因此,中文命名实体识别还有着一些尚未解决的难点,其主要包括为:(1)中文句式结构复杂且经常存在一词多义的情况,同样的汉字和词语在不同位置和语句中有不同的意义,现有的以英文命名实体识别模型为基础所改进的中文命名实体识别模型无法有效的针对全局上下文进行建模和特征提取,从而对同型不同义的词区分。(2)中文文本缺少词分隔符,基于词级别输入的模型需要解决中文分词问题,基于字级别的输入则会缺少单词的边界信息及词义信息,这增加实体识别的难度。(3)在网络文本为主的一些语料数据中,存在着一些未登录词,这给命名实体识别任务增加了不小难度。此外,目前的命名实体识别模型在解码层大多使用CRF机器学习算法,虽然能解决部分语法问题但特征提取效果差,维特比算法执行效率低。鉴于中文命名实体识别任务的上述难点,本文将针对中文语言自身的特性,提出一种混合神经网络中文命名实体识别模型。其没有使用传统的时序模型进行建模,而是将所有输入通过自注意力进行特征提取,并提出了基于多元卷积解码与二分类模型训练方法。同时,提出了以“位置意识传播”为基础的字编码方法和中文分词联合学习模型。本文的主要创新点及贡献有:1.提出一种基于完全自注意力机制的编码方式。每一个字或词的向量表示都经过注意力机制关联到整个句子,通过对所有位置上的字或词打分决定权重的分配,得到句子中最需要被关注的位置信息。解决了目前方法使用时序模型的弊端,使每个位置的编码向量都融合了全句的上下文信息,有效解决了汉字和词语的歧义问题。其相对时序神经网络模型参数更少,推断速度更快。2.提出一种多元卷积解码方式,该方法可以在解码过程中有效的关注到中文命名实体识别的特性,通过n-gram的二维卷积解码,将当前位置词与周围词相关联,提升解码效率的同时对前后单词的逻辑进行特征抽取。并采用与实体类别相同卷积核个数,能更有效的针对当前的命名实体识别任务从标签维度上提取有效特征。并且在训练模型时对每个卷积核使用二分类判断,更有效提升模型的训练针对性。3.针对基于以“汉字”为序列输入的命名实体识别模型,提出了一种基于“位置意识传播”的字编码机制,并采用了高斯核函数对其进行实现。在训练阶段与分词任务进行联合学习。该方法弥补了缺少词边界信息的问题。本文基于1998年人民日报语料PFR,微软提供的语料MSRA以及众包生成的某机构网页信息内容语料Boyue进行中文命名实体识别测评,对本文提出的模型进行框架和参数优化,以及与多个机器学习模型和近些年取得较好效果的中文命名实体模型进行对比实验。试验结果表明,本文提出的方法行之有效,相比一些现有的中文命名实体识别方法在一些方面有所提升。

其他文献

清理政府项目拖欠不能只“抬牛腿”

不论是由更高一级政府埋单还是由地方政府掏腰包,最终出血的还是每一位纳税人

期刊

拖欠工程款政府投资项目电视电话会议地方政府政府投资工程建设领域牛腿国务院建设部工程拖欠

中国对中东欧交通基础设施投资研究

近几年,中国交通基础设施产业面临着越来越广阔的外部市场空间,交通技术装备、工程设计、施工建设、项目管理等相关业务在走出去的同时,也带动了国内技术装备出口,对缓解国内就业压力、推动双边或多边技术和服务合作产生了积极作用。2019年11月11日,习近平主席参观中国和希腊合作的中远海运比雷埃夫斯港项目,进一步表明了中国对中东欧交通基础设施投资合作的恳切态度。就中东欧国家而言,交通基础设施落后已成为其发展

学位

海外投资中东欧交通基础设施钻石模型

合肥：市场透支健康回调

良好的经济增长预示着合肥楼市基础牢固,2016年过大的涨幅在2017年得到了充分的修正,在限购政策的调控下,2018年的楼市预计在供需平衡后回归健康发展。

期刊

楼市回调经济增长房地产市场价格用地管理房地产价格刘澄国土资源房地产走势房价走势

青岛天辰集团核心员工管理体系研究

随着经济发展的不断加快,青岛市中小企业的快速崛起,使得青岛天辰集团面临的竞争压力越来越大。21世纪,公司之间的竞争,是人才的竞争,如何留住公司核心员工,已经成为每个公司都在研究的课题。青岛天辰集团作为青岛市民营企业的代表企业,其面临的竞争也有人才竞争,因此,公司急需采取管理措施,留住公司核心员工。本文以青岛天辰集团为研究对象,对公司核心员工的管理体系进行研究。首先,通过对青岛天辰集团现有人力资源现

学位

核心员工识别动态监控激励管理绩效管理

初中生劳动价值观的培养研究

劳动是人类社会最基本的一种社会实践活动,对人类社会的发展具有十分重要的意义。劳动价值观是人们对劳动的价值和劳动意义的主观看法和认识,正确的劳动价值观念能够引导人们正确地认识劳动、客观地看待劳动,帮助人们形成尊重劳动、热爱劳动、珍惜劳动成果的良好风尚。反之,错误的劳动价值观念则会导致人们做出相反的劳动选择,且对人们的生产生活带来消极的影响。初中生正处于人生发展的关键阶段,他们的劳动意识和价值观念正确

学位

初中生劳动价值观劳动教育《道德与法治》课

卡特彼勒的中国式突进

庞大的行业整合计划是卡特彼勒垄断中国工程机械市场的“新机遇”,也是中国工程机械行业生存的巨大威胁

期刊

工程机械行业土方工程机械中国工程机械新机遇徐工并购国有企业股份有限公司中国市场卡特彼勒公司

民企变为新蓝筹

“国进民退”之说,一度甚嚣尘上,但如今民营资本开始强势回归。A股市场中,民营企业的数量已经超过3000家,其中不乏盈利能力强劲、抗风险能力强的大型企业。对此,证监会副主席

期刊

民营上市公司民企抗风险能力民营资本A股市场民营企业盈利能力大型企业

SPS制备多孔SrO/nHA骨修复材料在非人灵长类动物体内的生物相容性及成骨活性研究

目的:对含Sr量质量比为3%的SrO/nHA复合材料在非人灵长类动物体内的生物相容性及成骨活性进行研究。方法:1.采用SPS烧结技术、NH_4HCO_3为造孔剂制备多孔nHA材料和多孔SrO/nHA复合材料,并进行合格性检测。2.构建采用SPS烧结技术、NH_4HCO_3为造孔剂制备的多孔nHA材料和多孔SrO/nHA复合材料修复食蟹猴腓骨中段骨缺损的动物模型,分为空白对照组、nHA材料组和SrO

学位

SrO/nHA复合材料非人灵长类动物生物相容性成骨活性

超临界翼型优化设计关键技术研究

翼型影响着飞行器的气动效率、操纵品质甚至是安全性能,因此翼型设计是飞行器设计领域的一项重要的基础性研究课题。其中用于跨音速飞行的超临界翼型是翼型设计领域的一种重

学位

超临界翼型翼型优化差分进化入侵杂草优化贝叶斯导向选择改善概率

演奏好“课前预习”前奏曲——小学高年级语文预习有效性探究

《义务教育语文课程标准》指出:"要重视培养学生自主学习的意识和习惯。"而预习是学生自主学习的重要组成部分。古人云:"凡事预则立,不预则废。"可见预习环节的重要性。预习

期刊

语文预习兴趣方法交流评价

基于混合神经网络的中文命名实体识别研究

与本文相关的学术论文