小样本条件下的实体识别方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:yuantxunda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化程度的提升,每天在网络上生成了海量的自然语言数据,这些数据具有极大的挖掘价值。实体识别是用来挖掘实体信息点的任务,实体识别的准确程度将直接影响以实体为支撑的后续自然语言任务。但是,基于深度神经网络的实体识别方法还存在着一些不足:(1)基于深度神经网络的实体识别模型是监督学习模型,监督学习模型对样本数据极度贪婪。然而,在实际的生产环境中只能用有限的标注成本标注少量样本,无法构建大规模的标注样本集,给实体识别模型性能带来了巨大的困难。(2)即使标注了一个高质量的小样本集,但是语义特征和句法特征的不足依然限制着实体识别模型的性能。语义特征和句法特征是通用的特征,并且具有多样性的特点,需要在大量文本中才能准确的把握语义和句法特征。针对以上问题,本文的主要工作包含以下几个方面:(1)针对标注成本有限,不能构建大规模标注样本集的问题,本文在原有方法的基础上提出了一种改进的基于不确定性的主动学习方法,并将此方法用于实体识别任务当中。使用该方法能够从未标注样本集中筛选出特征分布均匀的小样本集,并基于该小样本集使模型达到使用全量数据训练所能达到的泛化效果。在多类数据集上的仿真实验表明:本章提出的改进的主动学习方法相比于原始方法筛选出的小样本集更小更精炼并且使用该样本集能让模型取得全量数据所能达到的泛化效果。(2)针对不确定性策略样本筛选效率不足的问题,本文提出一种基于损失学习的主动学习方法,同样将其用于实体识别任务中。基于损失学习的主动学习方法分为两个部分,分别是实体识别模型和损失学习模块。使用损失学习模块对未标注样本的损失值进行预测,并以此作为依据筛选出预测的损失值最大未标注样本并标注。该方法与改进的不确定性策略相比较,仿真实验表明:使用损失学习策略筛选出的小样本集特征分布更加的均匀,使用更少的标注样本就能达到全量数据所能达到的泛化效果。(3)为了进一步提升小样本条件下的实体识别模型的泛化效果,本文提出使用预训练模型来提升实体识别模型的效果,并在此基础上提出一种改进的参数迁移策略。该方法能将BERT预模型在预训练阶段捕捉到的语义和句法特征填充到实体识别模型中,以此实现对小样本集的特征进行补充。同时针对BERT模型在微调初期模型持续震荡和损失值抖动不降的情况,提出在BERT模型参数迁移的过程中重新初始化部分层的参数。实验表明:结合预训练模型的实体识别模型能够进一步提升实体识别模型的泛化效果,并且提升幅度不小,对比使用改进的参数迁移策略的模型和原始的模型的实验结果,使用了改进策略的模型能够在一定程度上再次提升模型的泛化效果。
其他文献
网络游戏直播是数字娱乐产业冉冉升起的新星,这不仅催生了游戏直播产业链的出现,也产生了诸多游戏直播侵权案例。近年来,我国的专家学者针对网络游戏直播的著作权合理使用进行了激烈的讨论,但是关于UGC网络游戏直播的著作权合理使用的研究寥寥无几。归根结底是因为目前理论界与实务界对网络游戏直播的认知不甚清晰,没有对不同类型的网络游戏直播进行辨析。事实上,以“用户原创内容”(User Generated Con
学位
岩溶地面塌陷是一种在我国广泛地区存在的地质灾害。岩溶区人类工程活动特别是强烈抽取地下水的作用会引起周边的岩溶地面塌陷,这势必影响到修建于此处的铁路的安全。本文以衡柳线二塘站岩溶地面塌陷为研究内容,对岩溶区工程地质条件及人类工程活动诱发岩溶地面塌陷的机理进行了研究。为防止抽排地下水造成铁路路基区的岩溶塌陷,拟采用注浆形成悬挂式帷幕的方法进行整治,这是少见的工程处理措施。本文中通过数值模拟的方法论证悬
学位
产业的融合发展引发乡村产业结构发生变化。在此背景下,乡村一二三产业之间互相组合,形成不同类型的复合产业。乡村复合产业发展促进产业农居内部功能走向多元化,复合功能产业农居成为其重要的发展趋势。在此过程中,传统产业农居产业功能会逐渐增加,所需要的复合功能产业空间也会随之变化。由于缺乏专业指导和统筹考虑,产业农居出现了传统风貌元素缺失、现代风貌元素滥用的问题。这些问题不仅影响了产业农居家庭产业的未来发展
学位
随着儿童年龄的增长,儿童与家长能够进行有效互动交流的时间逐渐减少,3-8岁的儿童处于认知能力发展、自尊养成、智力发展的重要阶段,有效的亲子互动有利于保障该阶段儿童的身心健康。在家庭环境中使用的儿童家具,若只注重普通成人或儿童对家具使用的功能性要求,而无视亲子双方处于不同的认知与发展阶段的使用需求,这对亲子间互动行为的展开是没有帮助的。首先,使用文献收集法获知设计事理学的研究现状和背景现状,通过对设
学位
太阳能富集地区由于其独特的地理位置和气候类型多样化以及太阳能自然资源,使其成为一个复杂多样的生态环境,而该地区发展经济较为缓慢,通过分析该地区的地域环境,实现该地区的农村住宅的宜居性能的提高。本文基于太阳能富集地区的农村住宅规划与设计,以太阳能富集地区为研究区域,以该地区不同气候区农村住宅为研究对象,其中以川西北高原住宅为重点进行探讨分析,通过从气候和生态、人文环境等背景为出发点入手,以建筑学的视
学位
冶金级碳化硅用于铸造熔炼中,既可以作为铁水预处理剂,有效增加石墨核心、脱氧去气净化铁水,改善铁水冶金质量,从而提高铸件材质质量;又可以替代硅铁和部分增碳剂,降低铁水材料熔炼成本,降低铸件的制造成本。
会议
为了研究能源消耗碳排放的时空演变规律并进行“碳达峰”预测,该研究以山西省为例,基于1997-2020年夜间灯光数据反演该省碳排放量,并采用引力模型与标准差椭圆模型对高碳排放区展开为期20年的时空演变分析,通过长短期记忆网络模型对山西省“碳达峰”进行预测。结果显示,1997-2020年山西省碳排放量以5.8%的增长率呈上升趋势;太原市和大同市为高碳排放区,阳泉市为低碳排放区;太原对其周边城市碳排放产
期刊
文章基于DMSP/OLS、NPP/VIIRS夜间灯光影像和能源消费统计数据,构建像元尺度上碳排放模拟模型,估算2001-2019年重庆市能源消费碳排放,并结合夜间地表温度数据,采用空间自相关分析、相关性分析等方法,分析2001-2019年重庆市碳排放与夜间地表温度的时空变化特征和空间自相关分布模式,并进一步探讨夜间地表温度与碳排放的内在联系。结果显示:(1)2001-2019年重庆市能源消费碳排放
期刊
随着人们对于健康意识的逐渐加强,戒烟问题作为影响健康的重要因素已成为我国广泛存在的热点话题。吸烟除了为自身带来各种疾病,还会因二手烟的暴露严重影响他人的健康,所以戒烟问题越来越引起人们的重视。目前市场上戒烟辅助相关产品较少,大多为尼古丁替代药物,缺乏对戒烟系统性的管理产品。首先,归纳并整理了相关文献,系统性地概述了劝导理论与戒烟管理的特点及应用,探索戒烟干预、健康管理、劝导理论三者结合的可能性,并
学位
型钢混凝土(SRC)结构因其承载能力强、变形能力良好等优点,目前在高层、大跨结构中得以被大量应用。我国规范建议SRC构件的含钢率不应超过15%,然而随着使用与设计要求的不断提高,已有部分工程应用了含钢率大于15%的高含钢率SRC结构。节点作为连接梁柱的重要枢纽,一旦发生破坏则会造成与其相连的构件全部失效,进而危及结构整体安全。国内外现有的关于SRC节点的研究均限于柱内含钢率小于15%的情况,而对于
学位