基于图注意力网络的中文命名实体识别研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:j621212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别,在自然语言处理研究中属于序列标注任务的其中一种,其目标是识别标记出文本序列中的特殊词语,这些词语一般为地名、机构名、人名等。一个优秀的命名实体识别模型不仅能抽取更多正确有用的信息,还能更好的为其他自然语言任务例如机器翻译、舆情监测等打好基础。基于词典或基于规则的方法是该项技术的传统方法,但这两类方法不仅非常耗费人力物力,而且还依赖于语言学特征,扩展性较差。随着深度学习技术的不断成熟,目前它已经成为了该领域的主要研究方法。在中文语料中,命名实体识别面临着一些问题:一是自动分词器分词错误带来的实体识别错误问题;二是中文语义丰富,容易产生词语歧义、一词多义等现象,进而干扰识别;三是一些非正式文本句子短小、行文不规范,会加大识别难度。为了降低这些问题带来的影响,为后续自然语言处理任务做好准备工作,本文提出基于图注意力网络的模型LGATC和融入BERT的图注意力网络模型BLGATC。本文的详细研究内容如下:(1)提出一个面向中文且基于图注意力网络的命名实体识别模型LGATC。在该模型中,首先以字词向量融合作为输入,即在利用字信息的同时,同时使用到其所在词语的信息,在一定程度上减少分词带来的错误。随后经过双向长短期记忆网络中捕获全局特征。再将模型经过图注意力网络层,运用句子中词语的依赖关系,将图注意力网络运用在句子的句法依存图中,通过更新邻居节点的注意力来关注主要信息。最后经过条件随机场选择最优标签后输出。经过在MSRA上验证,改良输入并融入图注意力网络的LGATC模型,其F值比基线模型Bi LSTM-CRF提高了3.12%。(2)在LGATC模型的基础上,为了克服Word2Vec的缺陷,在输入层捕捉更多语义信息,并降低一词多义带来的错误,本文将输入的静态Embedding层改为动态的BERT层,生成新的模型BLGATC。BERT在训练时是依据上下文的,它不会单一的将一个词映射到唯一的向量中,能够较好的进行消歧。经过在MSRA数据集上的验证,BLGATC模型的F值比LGATC模型提高了3.54%。此外,在三个公开的中文数据集Onto Notes、MSRA和Wei Bo NER上,经过将BLGATC模型与近几年提出的其他五个中文命名实体模型进行比较,证明了融入BERT的BLGATC模型取得了有竞争力的结果。
其他文献
上海市作为具有世界影响力的现代化国际大都市,长期以来一直非常重视游泳救生工作,上海市游泳救生协会的成立较早,经过20多年的发展已成为运行模式相对成熟的民间体育社团,在国内救生组织中具有较强的权威性、规范性,有着榜样和引领的作用,为上海市的水上安全健身起到了保驾护航的关键作用。本研究采用文献资料法、专家访谈法和实地调查法,从上海市游泳救生协会的基本情况入手,通过对上海市游泳救生协会负责人的访谈,从组
辅助变流器是高速列车的关键电气设备之一,只有在保证辅助变流器箱体的质量和安全的前提下,才能保证动车组的正常供电。辅助变流器箱体作为悬挂在车厢底部的零件,运行工作环境恶劣,经常出现疲劳断裂现象。断裂现象的发生会危机整车行驶安全和乘客人生安全。研究表明50%~90%的电气设备事故是由疲劳断裂引起的。辅助变流器箱体的轻量化能够减少辅助变流器箱体振动能量,增大箱体的强度,延长箱体的使用寿命。因此,在保证辅
大多数青少年犯罪可追溯到幼年期父母教养方式不当引起的心理健康问题。情绪健康是一个人心理健康的核心,所以在幼儿阶段对幼儿情绪的关注以及引导就显得尤为重要。在家庭中,父母是儿童情绪学习的引导者,尤其是母亲,作为家庭中幼儿教育的主要承担者,其养育自我效能感认为是父母参与子女教育的有力决定因素,所以本研究在了解学前儿童母亲教养效能和情绪调节策略的现状及是否受到人口统计变量影响,并进一步探究母亲教养效能及类
近年来,通过分子内官能团迁移来实现未活化烯烃的双官能团化尤其具有吸引力。值得注意的是,在烯丙醇类化合物的双官能化过程中,自由基1,2-炔基的迁移为获得官能化酮提供了一种新途径,其中的α-炔基酮产物也是一种重要的合成中间体,在有机方法学中具有潜在的应用价值。乙烯基硫化物可作为羰基化合物和迈克尔受体的互补构件,用于合成许多功能材料、天然产物和合成试剂,因而备受关注。其中,β-卤代烯基硫化物包括碳卤键、
柔性可穿戴设备因其在人体健康监测、远程医疗、人工智能等领域的巨大应用潜力,引起了人们的广泛的关注。柔性应变传感器在柔性可穿戴设备中占有的重要地位,其具有良好的柔韧性、高灵敏度及与皮肤的舒适贴合性等特点,能够将物理形变转化为可测量的电阻及电容等信号。它可以被设计成附着在目标柔性物体上来精确地测量其变形,监测由于关节运动、肌肉震动、甚至情绪表达引起的人体皮肤表面张力,被普遍认为在人体运动监测、远程健康
大气压冷等离子体射流是一种新型的放电技术,与传统的平行板放电相比,大气压冷等离子体射流不受处理材料与尺寸的限制,在材料加工、抛光刻蚀、航空航天、生物医学等方面具有重大的应用价值。因此,研究大气压冷等离子体射流具有重大的意义与实用价值。论文以针电极作为正极,环电级作为负极,搭建针-环结构的单根等离子体射流装置,以单根装置作为单元,向外扩展为阵列结构的大面积等离子体射流装置。向内缩小为单针电极结构的微
物流一直被作为第三利润源不断挖掘,但怎样创造利润一直是学者们不断讨论研究的课题,目前国家已经把智慧物流发展列为国家发展战略。卷烟消费升级后的市场需求呈现即时化和便利化的特征,卷烟订单及生产呈现“碎片化、多样化、多地化”的特征,其对物流服务提出了“快、准、柔”的要求。国家烟草总局因此也十分注重烟草智慧物流的发展,并已经决定在烟草智慧物流方面加大投资。在市场化取向改革驱动下,物流智能化、网络化和规模化
目前,工业窑炉广泛应用于冶金、建材、发电等领域,其生产质量及能耗与窑炉运行工况息息相关。受制于窑体结构和工艺复杂性等原因,燃煤窑炉的生产过程具有强耦合、非线性、大滞后等特点,工况识别困难。为此,本文以回转窑这一典型工业燃煤窑炉为对象,结合其工艺流程特点,从数据机理的角度提出一种基于深度学习的工况识别框架,实现窑内烧结状态的稳健识别。论文的主要工作如下:(1)分析了国内外学者对烧结工况识别所提出的方
国家质量基础设施(National Quality Infrastructure,NQI)通过计量、标准化、检验检测和认证认可等为国民经济的健康有序发展提供了有力保障。然而,目前我国NQI服务地域发展不平衡,不同地区服务水平存在巨大差异。NQI综合服务信息系统基于双边资源整合模式,将相关NQI资源整合到服务系统中,供用户选择使用,极大地缓解了需求不平衡问题;但同时海量服务数据也导致了用户服务选择难
化石能源的短缺以及环境问题的恶化,大力推动了电动汽车行业的发展。随着中国电动汽车销售量不断攀升,大批量的动力电池从电动汽车上淘汰下来,退役的动力电池该如何处理成为了一个重要的社会问题。电动汽车动力电池退役后,其实际的容量能达到初始容量的80%,筛选重组后可在储能领域中继续发挥作用。但现阶段动力电池梯次利用的技术和经济性能有限,尚不具备规模经济性。退役电池用于储能是否具有经济性决定了该产业能否成功过