基于MLM的小样本学习方法的研究

来源 :内蒙古农业大学 | 被引量 : 0次 | 上传用户:zw840909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在自然语言处理方面,深度学习技术已经有了长足的进步。但是,大多数的深度学习都是通过对大量的标记样本学习,完成对目标任务的模型构建。然而,在某些情况下,由于涉及数据隐私保护,获得足够的训练样本变得非常困难。除此之外,对海量样本的标记也非常费时费力。为了解决小样本情况下自然语言处理问题,学者提出了小样本学习方法。但是,其中大多数的小样本学习模型参数设定较多、模型复杂度大,对计算机的算力要求非常高。为此,本文提出了基于MLM(Masked Language Model)模型的小样本学习方法。在多个数据集上的仿真实验结果表明,该方法在小样本学习任务上优于经典的机器学习及深度学习方法。本文具体研究工作如下:(1)提出了小样本学习训练方法FPT-MLM(Few-shot Pattern Training based on MLM),完成了小样本自然语言处理任务。该方法每次选择一小部分token来掩盖,然后在同一个样本上反复训练,获得双向融合信息的训练模型后,再将测试集转换为填空概率问题,并适当添加前缀或者后缀,然后利用解码层进行解码,最终得到预测标签序列的概率,实现自然语言的识别、分类及分析。(2)将提出的FPT-MLM方法应用于专利文本实体识别。针对专利文本领域缺乏足够的标注数据以及少量样本情况下传统的实体识别方法准确性偏低等问题,选取压力传感器制备领域的少量专利摘要文本,采用BMEO标注的方式进行人工标注,建立了带标签的中文专利摘要实验语料库。利用本文提出的FPT-MLM方法,完成了特定专利领域实体识别任务,识别效果较机器学习方法和深度学习方法,其准确率和F值均表现优异。(3)将提出的FPT-MLM方法应用于小样本情感分析和短文本分类中,实验结果表明,该方法可以有效的减少模型复杂度并保持基准效率。
其他文献
道路目标检测是智慧交通、自动驾驶领域里备受关注的关键问题和研究热点。近些年来,随着深度学习技术的迅速崛起,使用卷积神经网络的道路目标检测算法相对于传统采用滑动窗口或者图像分割技术的检测算法在准确度和处理时间上有了很大的提高,但依然存在一些问题。虽然复杂的卷积神经网络结构设计能够提高道路目标检测的准确率,但是复杂的算法设计带来的是超额的计算量和参数数量,以及过大的模型体积,这些导致基于卷积神经网络的
学位
随着我国社会经济水平的日益提高和人民生活质量的不断改善,人民群众对牛奶的需求量和品质要求在逐渐提高。牛奶品质检测会对牛奶品质产生深远影响。传统的牛奶营养成分检测方法有着效率低、经济成本高和操作繁琐等缺点。高光谱成像技术具有快速、无损、操作简单和准确率高等特点。基于高光谱成像技术的牛奶品质检测研究已经取得不错的进展,然而现有研究往往只对牛奶的单一指标进行建模,而且各种光谱预处理和波段选择方法的适用条
学位
随着计算机视觉技术的发展,单目视觉技术已经从静态的图像识别,动态的行为识别逐渐向目标定位、测量延伸。由于单目视觉缺乏视差因素,只能将三维目标转化为二维图像,因此利用常规的单目视觉方法只能实现二维定位,实现三维定位存在很大困难。本文从单目测距方法出发,建立了基于单目视觉的三维定位模型。该模型与传统的目标三维定位模型相比在定位的准确度和实用性方面都有了较大的提高。本文开展了以下方面的研究工作:(1)通
学位
随着遥感技术的发展,遥感图像的准确度和分辨率都得到了很大提升,成为监测寒旱区湖泊生态环境变化的重要数据来源。寒旱区湖泊每年有很长时间都处于冰封期,周围地物样貌随季节变化较大,在遥感图像上呈现出较为复杂的特征,并且在背景处存在大量山脉以及阴影的干扰。因此如何准确完整地提取遥感图像中的寒旱区湖泊水体成为亟待解决的问题。深度学习中的全卷积神经网络模型能够学习到图像深层次的特征,对图像中的像素逐一进行分类
学位
视觉测量作为智能车、无人车环境感知与距离感知的重要手段正成为计算机视觉领域的研究热点。基于单目视觉的测距方法由于不需要图像配准,相较于目前广泛应用的双目视觉测距而言,具有更低的模型复杂度及应用成本。其中摄像机的标定方法是影响单目视觉测距前期准备、实时性及准确性的重要因素。但是目前的摄像机标定方法存在标定过程复杂、与单目视觉测距模型结合度低导致测距精度较低的问题。为提高摄像机标定及单目视觉测距方法的
学位
玉米是全球总产量和平均单产最高的谷类作物,是世界最重要的粮食作物之一,而抽穗期是玉米生命周期内最为重要的时期,此时玉米的生长直接关系到玉米的最终产量,因此抽穗期玉米穗数量的监测是预估玉米的产量的关键指标。目前,大多数玉米穗计数任务都是基于目标检测的方法来实现的,其模型架构由深度学习神经网络构建而成,通过在特征图上滑动候选框来对目标分类是该类方法的主要目的之一。然而在神经网络训练过程中,面对目标高密
学位
内蒙古草原是欧亚草原重要的组成部分,是我国北方重要的生态安全屏障,在维持生态系统稳定、生物多样性完整、固碳、居民收入以及地区和谐稳定等方面有重要的战略意义。但草原退化已经成为内蒙古草原最严重的生态问题之一,其已经暴露出来的和潜在的风险对草原的可持续发展构成严重威胁。然而针对内蒙古草原草情监测方面多采用地面人工调查的方法,耗时费力,且覆盖范围有限,代表性较差,无法快速反映辽阔草原长势的时空差异,影响
学位
本文以鄂尔多斯沙棘籽原花青素为研究对象,脱脂后进行提取和纯化,优化了提取条件,并对原花青素进行抗氧化活性的测定,做对比实验,为进一步开发利用沙棘籽资源奠定了基础.首先,分别以不同脱脂时间,液料比,提取温度,提取时间,pH值对沙棘籽原花青素得率的影响,以吸光度作为评价指标;采用乙醇提取法提取鄂尔多斯沙棘籽中的原花青素,并对其提取效果的主要影响因素进行研究.在原花青素的提取过程中,通过单因素试验,得出
学位
本文旨在分析苏尼特羊尾脂的功能营养成分,提升羊尾脂的产品附加值,为今后的开发利用提供基础数据。以苏尼特羊尾脂作为试验组,用其肾周脂,乌珠穆沁羊的尾脂、肾周脂以及放牧+育肥的肉牛皮下脂、舍饲猪皮下脂作为对照组。使用GC-MS测定样品中脂肪酸含量、sn-2位脂肪酸组成、共轭亚油酸含量;使用HPLC测定四种脂溶性维生素和胆固醇含量。结果如下:(1)苏尼特羊尾脂中棕榈酸(C16:0)、硬脂酸(C18:0)
学位
对于乳制品营养物质的评价中,牛奶作为人们日常生活中必需的蛋白质吸收来源,较为重要的指标就是蛋白质含量。近年来,消费者的身体健康和乳品行业的发展与牛奶的质量息息相关,因此,对牛奶蛋白质含量检测是一个很重要的环节,传统的检测方法消耗时间长且浪费大量的人力资源,同时还会导致环境恶化。所以找到更快速、准确的牛奶蛋白质含量检测方法,对乳业质检有着重要意义。因此,本文采用机器学习结合高光谱成像技术对牛奶蛋白含
学位