基于深度学习的中文特定领域命名实体识别方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gwxy110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息化社会的高速发展,带给了我们越来越多的便利,随之也产生了海量文本信息,如何对这些非结构化的信息进行分析挖掘,将自然语言解析为计算机可处理、可理解的语言形式以实现知识的获取和表示,是自然语言处理(Natural Language Processing,NLP)研究的一个核心目标,同时也是人工智能的主题之一,对于实现机器认知智能具有重要意义。命名实体识别(Named Entity Recognition,NER)作为自然语言处理研究的重要组成,要求对各式各样文本数据中具有特定含义的诸如人物名、地名、组织机构名等实体语言成分进行识别,是对话交互系统(Dialogue and Interactive Systems)、自动问答(Automatic Question and Answering)等高层自然语言处理技术中必不可少的一部分。以往的研究主要关注于上述几种常见类型的实体,相对已经成熟,而在特定领域,尤其是针对中文特定领域的实体识别仍处于发展阶段,相关研究较少。由于标注语料稀少、专有术语和稀有词较多,中文特定领域的文本更难以建模和表示,极具挑战性,因而本文的研究重点将集中于此。对于数据低资源产生的建模表示难点,本文挖掘大规模自然语言数据的潜力,将自然语言本身视为“天然”标注语料,使用语言模型(Language Model)提炼其中的语言知识,同时构建新型的网络架构实现更为有效地建模和标注。概括地来说,本文工作内容主要有如下几点:(1)首先,对目前命名实体识别领域主流实体识别方法——长短期记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)与条件随机场(Conditional Random Fields,CRF)集成模型BiLSTM-CRF进行了详细地介绍,并在此基础上从模型网络结构优化改进层面出发,提出了一种基于Hierarchical BiLSTM-CRF模型的端到端实体识别方法,并在三个中文特定领域的实体识别数据集上进行实验,探索了深层次网络在特征抽取上对实体识别效果的影响,实验结果表明适当深层次的网络架构有利于捕获更佳语义层次的特征表示,可以提升模型的实体识别效果;(2)其次,本文引入深度学习最新理论成果BERT(Bidirectional Encoder Representations from Transformers)深层语境语言模型(Deep Contextual Language Model),其利用大规模自然语言文本语料进行双向无监督预训练,再结合具体下游任务进行微调,相比较于传统浅层语言模型,BERT能够根据词所在上下文语境动态地调整相应词嵌入表示,很好地解决了“一词多义”问题,因而具有强大的上下文语言表征能力。受此启发,本文从语义层面改进出发,提出一种基于BERT-CRF模型的端到端实体识别方法,并在上述数据集上进行验证,实验结果表明当预训练数据与实验数据集中的显性语言表达存在较大共性时,模型识别效果提升明显;(3)接着在上述基础上,考虑到BiLSTM-CRF模型具备良好的序列标注性能,长期被作为基准模型(Benchmark Model),本文提出一种基于BERT-BiLSTM-CRF模型的端到端实体识别方法,后续的实验证明这两者的融合效果显著,不仅在上述三个中文特定领域的实体识别数据集上取得了最佳的识别效果,并且在现有多个公开数据集上超越了以往论文中的方法。
其他文献
清代新疆兵屯早期主要是用来解决战时的粮秣供给问题,待新疆政治局势稳定之后,以兵屯为先导带动其它形式的屯垦快速发展。兵屯是利用绿营兵进行屯田生产,其组织性强、见效快,能够快速解决驻军的粮秣供给问题,在政治和军事上都有重要意义。清代乾隆朝在新疆设置兵屯的发展主要经历四个阶段:一是乾隆元年至乾隆十九年,这段期间由于清准关系缓和,清政府仅在哈密毗邻的屯垦区域进行屯垦;二是乾隆二十年至乾隆二十四年,清政府派
学位
目前,在一些核设施退役和核泄漏场所,发生事故主要是通过采用没有屏蔽装置的机械手或机器人进行有限作业。针对不同的核辐射环境,对机器人末端执行器的快速自动更换过程进行
肺炎克雷伯菌是重要的人畜共患病原菌,牛感染后会引起乳房炎、肠炎和呼吸道疾病综合征等,给养牛业带来一定的经济损失。为调查新疆地区犊牛肺炎克雷伯菌感染情况及其耐药特性,本研究在2020年3月~2020年12月采集了新疆14个集约化牛场犊牛的鼻拭子与肛拭子,通过PCR方法扩增肺炎克雷伯菌的特异性基因khe,进行肺炎克雷伯菌分子流行病学调查,阳性样品进行细菌分离培养获得肺炎克雷伯菌株;分离株通过PCR鉴定
遮挡人脸检测是当前人脸检测面临的最主要问题之一.人工智能时代,人脸检测作为图像处理与计算机视觉领域的重要研究方向得到广泛应用,而具体复杂的实际应用场景对其算法的要
新疆作为我国最大的棉花生产基地,棉花产业的发展影响着整个地区经济。棉花产量从2000年的“三分天下有其一”到2010年的“半壁江山”再到2019年的“一枝独秀”(张杰,2019),“世界棉花看中国,中国棉花看新疆”的基本产业格局已经基本形成。目前国内棉花生产成本居高不下、种植品种杂乱,库存积压皮棉数量多,在国际市场上价格缺乏价格竞争优势,棉花市场价格波动幅度较大,在很大程度上打击了大部分农户的种植
学位
从1978年改革开放以来,发展经济、提高群众生活水平成为国家的中心工作,招商引资成为各级政府推动经济发展的重要抓手。从2010年第一次中央新疆工作座谈会以来,党中央对新疆和兵团工作作出了一系列重大部署,特别是推进兵团设市建镇、完善兵团政府职能,促进了兵团长足发展。第一师阿拉尔市的经济体量、人口规模、产业结构、区位布局等都处于兵团举足轻重的地位,是兵团的大师。特别是“一带一路”倡议和兵团向南发展的深
学位
纪录片《额尔齐斯河畔的牧羊人》是一部讲述新疆阿勒泰地区哈萨克族牧民从传统游牧生活方式走向现代化的故事,随社会经济的发展,生活水平的不断提高,哈萨克族牧民生活质量也逐渐提升,逐步走向致富之路。本片以吉木乃县游牧羊倌阿岱、青河县定居牧民阿勒哈泰、福海县互联网创业者刘巍为主角,探讨他们背后所代表的哈萨克民族游牧文化与生活生产方式的转型与传承,本纪录片以故事化叙事的方式来呈现人物经历与心路历程,同时借助同
自实施家庭联产承包责任制40多年来,随着中国特色社会主义进入新时代。在新时代新征程的新起点上,我们始终要把“三农”的发展放到首要地位,按照“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”的总体目标,建立健全农民专业合作社发展的相关法律法规政策,有效推进农民专业合作社健康、可持续发展,对我国贫困地区贫困人口的增收减贫产生深远影响。基于此,本文以新疆生产建设兵团第十四师农民专业合作社的减贫效果及影
学位
随着物联网技术与农业生产紧密结合,拥有自主导航能力的智能车在农业生产中发挥着越来越重要的作用。研究从实际应用需求出发,以实现自主导航为设计目标,通过对智能车导航系统的软硬件设计,基本满足了智能车在农业温室环境下的自主导航工作。首先,在系统硬件架构方面,分析温室环境的实际情况,搭建出一台以阿克曼为转向结构,由多传感器融合的温室智能车。上位机平台采用ROS(Route Operation System
实际的机械系统在工作过程中不仅会受各种干扰的影响,还会受一些譬如速度、加速度等约束条件的限制,因此研究干扰和状态受限的机械系统的控制问题具有一定的理论和应用价值。