基于深度神经网络的中文命名实体识别方法研究

来源 :福建工程学院 | 被引量 : 0次 | 上传用户:FLASH920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是知识图谱、机器翻译、智能问答系统等一系列自然语言处理任务的关键性子任务,旨在从非结构化的文本数据中提取出特定的命名实体,而中文命名实体识别仍然面对诸多挑战,因此对于中文命名实体识别的研究具有现实意义。互联网的高速发展带来了网上文本数据指数级的爆发式增长,为基于大数据驱动的深度学习方法奠定了基础,本文主要采用基于深度学习的方法对命名实体识别展开研究,研究工作可以概括如下:(1)当前的命名实体识别模型多是字级别特征输入,针对字向量可能出现分词错误以及词向量不能很好利用相邻字序列的语义信息的问题,本文构建了基于空洞卷积网络的特征融合实体识别模型ID-CW-CRF,空洞卷积网络通过卷积膨胀扩大网络的感受野,从而捕捉文本中更长距离的上下文信息,通过卷积网络对字特征进行提取,再与词特征融合,融合后的特征优势互补,最后经条件随机场CRF解码输出带约束的序列标签。在公开数据集《人民日报》与MSRA进行实验,实验结果表明与主流的深度学习方法对比,本文提出的基于空洞卷积的特征融合实体识别模型有效地提升模型的性能。(2)现有的命名实体识别研究多是聚焦于医疗和金融领域,由于电力文本的标注数据相对难以获取,本文对非结构化的电力故障诊断文本进行预处理,构建了电力故障诊断实体识别标注数据用以验证模型在特定领域的泛化能力。(3)针对特定领域标注语料不足以及字向量表示面临表征形式单一化的问题,提出了一种基于预训练的双向长短时记忆网络命名实体识别模型。相对于离散式与分布式的文本嵌入表示方式,基于预训练的文本嵌入表示方法充分利用了大规模中文语料,可以获得更为丰富的中文语义表达。本文引入空间复杂度优化的预训练模型ALBERT进行预训练,改进的预训练模型降低了对机器性能的依赖,结合双向记忆神经网络BLSTM和解码器CRF,提出了一种基于预训练的双向记忆神经网络的实体识别模型ALBERT-BLSTM-CRF,预训练模型通过模型微调调整网络的权重更好地适应命名实体识别任务。本文提出的ALBERT-BLSTM-CRF在小样本电气故障诊断文本数据集上进行实验,实验结果证明该模型具有一定的泛化能力。
其他文献
改革开放以来,我国经济高速发展,但与此同时,结构性问题也越来越凸显,而产能过剩正是其比较深层次的问题所在,严重的产能过剩问题大大降低了经济的整体效益,对中国经济的长远与可持续发展提出了挑战。中国经济发展步入新常态以来,转换经济发展模式,确保经济社会的高质量发展变得更加关键,去产能成为中国供给侧结构性改革的主要目标之一。本文选择了我国在2002年外资管制放松来作为准自然实验,并通过倍差法系统探讨了外
学位
持续深化的人口老龄化进程和不断扩大的流动人口规模,不仅加剧了我国家庭不同代际人口的分离情况,对于传统的家庭养老认知和行为也产生了重要影响,流动人口的养老问题已成为社会各界关注的重点,如何切实解决流动人口的养老问题也成为积极应对人口老龄化战略中不可或缺的重要部分。由于受到儒家“孝”文化传统的影响,家庭养老在我国始终占据着重要地位,而子女作为家庭养老的主要责任人,其对流动人口养老责任认知产生的影响也不
学位
南海《更路簿》已经列为国家级非物质文化遗产,它不仅具有反映出丰富渔业知识、南海地理情况、南海渔民生活、生产内容以及海神信仰等文化内涵和强有力的证明南海争端的法理依据。当下,数字人文除了被学界广泛讨论之外,也广泛应用于业界,数字与各种领域结合形成了许多新的探讨,也产出了许多利于文化传播、生活服务等方面的产品。因此,本文以《更路簿》为研究对象,讨论《更路簿》与数字人文如何结合,基于“数字人文”的方法探
学位
2008年国际金融危机以后,全球价值链出现向特定地区集中的趋势,保护主义抬头,使得国际贸易格局受到复杂的影响。此外,长期以来中国国内的要素市场也在持续发生变化:传统人口红利逐渐消失,资本丰裕度则不断上升,依靠低劳动力成本比较优势参与全球价值链分工的增长模式不可持续。国内外经济环境的变化都要求我国加快“形成以国内大循环为主体、国内国际双循环相互促进的新发展格局”。本文从生产内循环视角出发,探讨中国寻
学位
推进乡村振兴是事关全面建设社会主义现代化国家全局的重大问题,推进乡村产业振兴是推动乡村全面振兴的重要基础。而农业产业化是实现乡村产业振兴的关键环节。当前,农业产业化进程在快速推进的同时,也面临着如何进一步更好提质增效惠农的难题。政府和市场是贯穿经济社会发展的重要基本力量,正确认识和处理政府与市场关系对于更好推进我国农业产业化提质增效至关重要。因此,本文选择从政府和市场关系的视角,研究农业产业化提质
学位
互联网技术的广泛使用在全球掀起了创新的浪潮,这一技术浪潮对于经济新常态下中国的意义尤其重大。本文使用69个国家1996-2019年的面板数据集,实证分析了互联网发展水平对于国家创新能力的影响效果,并且通过引入制度和环境的交乘项,探讨了环境、政府效率和全球化水平对于互联网影响创新渠道的交互效应。实证结果表明,互联网发展对于提升国家的创新能力具有显著的正向影响,这一影响会随着国家环境效率和政府治理水平
学位
近年来,集装箱海上运输的快速发展给集装箱码头带来了前所未有的压力和挑战。集装箱码头作为海陆运输的中转节点,是集装箱集疏运体系中的重要场所,在经济贸易活动中扮演着重要的角色。在面对日益增长的集装箱运输量以及集装箱码头间激烈的竞争时,集装箱码头运营方对提高集装箱码头的竞争力有着实际而明确的要求。这不仅是码头自身运营的要求,同时也是其所在国家提升经济发展和物流水平的需要。因此,码头运营方必须考虑优化生产
学位
近年来,随着新一轮科技革命和产业革命快速发展,技术创新成为引领中国经济新常态的“第一动力”,新一代信息技术与金融业的加速融合催生了金融科技的蓬勃兴起。与此同时,曾被誉为铁饭碗的银行业以肉眼可见的速度步入寒潮,传统金融机构劳动力面临技术性失业的艰难处境,金融科技给传统金融业就业带来的这种不可逆冲击,影响机制如何?影响结果如何?该如何破局转变?对以上问题的深入考察和探究具有极其重要的实践性和指导性意义
学位
随着我国社会收入不平等现象加剧,收入流动性也出现了持续的下降,“二代”现象逐渐凸显。收入流动性的下降将会造成收入阶层的固化,造成收入差距在代际间的传递,从而使得长期收入差距进一步恶化。在这样的背景下,研究如何提升居民收入流动性,让低收入群体拥有改善自己相对收入的机会,并实现收入地位的向上流动对于缓解居民长期收入差距的扩大具有十分重要的现实意义。本研究以低收入群体的代际收入流动性为研究的切入点,讨论
学位
加快交通基础设施建设,打造现代化综合交通体系,是实施交通强国战略、建设美丽中国、促进社会进步的重要支撑与保障。交通基础设施项目具有建设规模大、建设周期长、投资额大、技术复杂、参与者众多和社会影响大等特点,项目承包商建设过程中面临较高的不确定性风险,加之事前价格补偿不足和事中控制权较低等问题,使其工作缺乏积极性与主动性,导致工程质量不佳与工期延误,亟需建立适合的激励方式,实现业主方与承包商的互利共赢
学位