基于迁移学习的命名实体识别研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:FinchPie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理任务中将非结构化文本转变为结构化数据的处理方式之一,NER模型性能的优劣直接影响自然语言处理(Natural Language Processing,NLP)下游任务的执行效果。现阶段表现较好的NER模型大多均添加辅助信息以丰富特征类型,而辅助信息需耗费一定资源进行构建,难获取,不同领域特征差异较大,且特征质量的优劣直接影响NER模型的性能。因此,本文将焦点锁定为文本自身,不引入其他辅助特征,采用不同特征编码器来获取多类型的特征分布,利用迁移学习策略将特征信息交互共享,以弥补无辅助特征的缺陷。主要工作内容如下:(1)构建基于BERT(Bidirectional Encoder Representations from Transformers)迁移模型的门控多特征提取器的中文NER模型。该模型采用BERT获取词向量并将其迁移到下层目标模型,利用三个特征提取器搭建双层特征提取层,基于多头自注意力机制,采用两个具有不同编码机制的特征提取器共同挖掘词向量模型输出的文本信息,并利用共享特征提取器处理前一特征提取层输出的特征信息。同时,为卷积机制的特征提取器引入门控机制以改进卷积形式,实现流量控制的同时也能增加数据流通渠道。此外,构建两个条件随机场以实现文本序列的标签预测。在Resume、MSRA数据集上测试该模型,并与Lattice LSTM[BERT]、PLTE[BERT]等先进的NER模型进行比较,结果表明本文模型能改善NER模型识别实体的能力。(2)采用对抗迁移学习策略构建中文命名实体识别框架。此模型搭建两个NER子模型,两个NER子模型共同编码语言模型的输出,再利用对抗迁移策略共同学习、迁移NER子模型间的知识,从而获取种类更多样、表征能力更强的特征分布。在两个NER子模型中,引用残差连接机制改进特征编码器,以降低网络退化带来的不利影响。此外,引入对抗损失,促使特征生成器生成高质量的共享特征。在Boson、People Daily、Resume等数据集上进行验证实验,并与具有代表性的NER模型如LR-CNN、Lattice LSTM、FLAT等做比较,结果显示,本模型F1值最高提升了4.17个百分点,且提升幅度高于其他比较模型,表明本文对抗迁移NER模型在泛化性、鲁棒性、评价指标等方面均得到明显改善。
其他文献
高强钢的热冲压成形技术是当前汽车制造业的重点技术。热冲压成形技术符合汽车轻量化的发展方向并能提高汽车安全性能。热冲压成形用高强钢中应用比较广泛的钢种是含硼钢,其中以22MnB5钢为代表。在热冲压成形的工艺过程中,高强钢板材会被加热到奥氏体化温度区间内,并在带有水冷系统的冲压模具中冲压成形。在此过程中,高强钢的组织由铁素体和珠光体组织转变为全马氏体组织,自身强度得到大大提升,达到高强度的目的。在热冲
3003铝合金是3XXX系铝合金最常见的牌号,具有良好的耐腐蚀性、焊接性和力学性能,广泛用于电池、空调、包装等行业。立式铸轧时,由于轧辊具有很强的冷却能力,3003铸轧板材表面的冷却速度比芯部快,使得板材芯部出现偏析带。经过均匀化退火和冷轧之后,板材再结晶组织大小不均匀。因此,需要通过改变铸轧工艺并设定不同冷轧和退火工艺来减轻铸轧3003板坯的偏析并获得组织均匀和晶粒细小的板材。本文研究不同铸轧速
对称四甲基六元瓜环是在普通六元瓜环的基础上在对位分别引入两个甲基形成的甲基取代瓜环。本论文主要介绍了以对称四甲基六元瓜环(TMeQ[6])为框架基本构筑模块,以外壁作用作为驱动力在不同酸和同一种酸的不同浓度下通过自诱导或金属离子诱导构筑的不同框架材料及对框架材料性质的探究。一方面以TMeQ[6]在1-2 M硫酸,3-4 M硫酸,5-6 M硫酸条件下形成的自诱导的三种框架结构(分别命名为A,B,C)
海洋工程用高强特厚齿条钢板是自升式海洋钻井平台桩腿的关键材料,具有高强度、高韧性、大厚度、抗腐蚀能力强、技术含量高和生产难度大等特点。本文采用国内某钢厂提供的177.8 mm厚690 MPa级齿条钢板为实验材料,研究了 177.8 mm厚齿条钢板表面、1/4处和心部不同位置的力学性能和组织均匀性,分析了表面、1/4处和心部位置元素的偏析对钢板低温韧性和强度的影响,研究了离线热处理对特厚齿条钢板淬透
本文研究了稀土的添加对SWRS82B钢中氧化铝夹杂物的数量,大小以及平均尺寸的影响。通过热力学计算以及演变分析的计算结果验证了实验结果,分析了稀土元素添加后对氧化铝夹杂物的演变规律。通过非水溶液电解法观测夹杂物的表面三维的具体形貌。实验结果表明:在添加铈之前,夹杂物的尺寸在8.65μm-11.32μm的范围内,并且形状不规则。当添加铈改性后使得钢液中夹杂物尺寸减小了5.13-6.48μm,夹杂物逐
多元系固-液相平衡是研究物质结晶过程的基础,为了给五元体系NH4+,K+//Cl-,H2PO4-,(NH2)2CO-H2O的固-液相平衡研究以及共结晶过程研究提供理论基础,本论文采用等温溶解平衡法对353.15 K条件下五元体系NH4+,K+//Cl-,H2PO4-,(NH2)2CO-H2O中的4个三元体系和3个四元体系进行了固-液相平衡研究,具体开展了以下工作:(1)采用等温溶解平衡法研究了3个
改革开放以来,深圳学前教育经历了重建与规范期、整顿与改革期、发展与提高三个阶段。目前,深圳学前教育存在公办园在建设进程中隐忧重重、幼儿园教师离深返乡凸显、婴幼儿照护服务体系不够健全等问题。在粤港澳大湾区和先行示范区的"双区驱动"下,深圳应积极完善集团化办学和公办校接管模式,精准施策,让幼儿园教师安居、乐学、善教,多措并举完善婴幼儿照护服务体系,扎实地走出一条高质量、公益性、特色化发展的学前教育公共
本文应用单因素、响应面等方法对电镀Sn-Ni-Cu合金工艺进行筛选与优化,得到最佳的电镀Sn-Ni-Cu合金镀层的镀液配方及操作参数。之后再对样品进行加热,研究热处理对镀层性能的影响。首先对焦磷酸盐体系中电镀制备Sn-Ni-Cu合金镀层基础配方的优化。采用单因素法,研究了温度、p H值、电流密度、各主盐浓度和焦磷酸钾浓度对镀层组成含量的影响;L-半胱氨酸、乙二胺和柠檬酸三铵的浓度对镀层光泽度及耐蚀
含有三氟甲基(CF3)基团的有机化合物一直以来在农药、医药以及材料科学中都有着较为广泛的应用。以经济便捷高效的新方法在化合物中引入三氟甲基是有机合成研究的热点之一。由于三氟甲基具有亲脂性、强吸电子性以及稳定的碳-氟键等特性,将三氟甲基引入到有机化合物中能够显著改善化合物的各种特性,使其具有更好的化学和代谢稳定性。三氟甲基化反应主要是利用三氟甲基化试剂来实现的。三氟甲基化试剂可以分为三种类型:亲核型
十元瓜环(Q[10]),做为瓜环家族中聚合度最大的成员,其大的空腔以及众多数量的端口羰基氧赋予了Q[10]与众不同的性能。本文以Q[10]为构筑基元,选择了盐酸小檗碱(BER)、质子化吖啶(MeAD)两种客体分子,构筑荧光探针Q[10]@BER、Q[10]@MeAD,通过多种现代分析手段研究了它们的主客体作用,并将这两个荧光探针应用于农药检测;同时研究了两个哌啶衍生物与Q[10]的自组装结构特征;