基于自注意编码的文本分类方法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户：xiestephen

【摘要】

：

文本分类是许多自然语言处理应用中的一项基本任务。面对互联网上呈爆炸式增加的文本资源,如何利用文本分类技术,合理高效地对这些资源进行管理以及分类,挖掘其中潜在的商业

【作者】

：

杨修远

【出处】

：

大连理工大学

【发表日期】

：

2020年01期

【关键词】

：

RNN Transformer BERT 知识蒸馏文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是许多自然语言处理应用中的一项基本任务。面对互联网上呈爆炸式增加的文本资源,如何利用文本分类技术,合理高效地对这些资源进行管理以及分类,挖掘其中潜在的商业价值,变得越发重要。近年来,深度学习在特征提取和表征方面有了巨大的进步,并且在自然语言处理的很多领域上取得了令人满意的成绩。尤其是是与之前模型结构完全不同的Transformer模型的提出,在机器翻译领域取得了耀眼的成绩,引起了相当大的反响。Transformer模型利用自注意机制解决语言表征的长期依赖关系,并通过残差结构来增加模型深度,提高模型在大规模数据上的语言表达能力。然而,Transformer模型在文本分类任务中仍然存在诸多问题。本文从模型结构改进与模型蒸馏两个角度进行了研究。在模型结构改进方面,Transformer作为编码-解码模型,在机器翻译任务中表现优良,然而在实际实验中发现,将Transformer作为编码器直接应用于小样本数据的文本分类任务时,由于Transformer模型过于复杂导致模型容易过拟合。因此相比于传统的浅层神经网络RNN,其实验效果并不理想。针对该问题,借助由Transformer构件组成的Transformer编码块,本文提出一种“寄居蟹”策略,即将Transformer中的自注意机制替换为双向RNN。使RNN依次融合Transformer的各个构件生成新的实验模型。实验结果表明模型在任务中的分类准确率得到提升。提升主要源自多头注意力机制和多层注意力机制。在模型蒸馏方面,针对以Transformer为基本结构的深度语言表征模型BERT的模型复杂、计算开销大、推理速度慢等问题,本文构建一个多领域的自适应知识蒸馏框架。将多个领域微调后的BERT模型组合起来作为教师模型。在教师模型的帮助下,通过使用软标签和跨不同领域的硬标签,训练单一却适应于多领域的学生模型。该框架下的蒸馏目标包括:词嵌入层蒸馏,编码层蒸馏(注意力蒸馏,隐藏状态蒸馏),输出预测层蒸馏等。实验结果验证,知识蒸馏能够有效地将教师模型的概括能力转移给学生模型。多领域蒸馏能使学生模型更加具有通用性,模型在三个任务上的分类准确率进一步得到提升。通过对Transformer模型展开上述两方面的研究,我们充分挖掘了Transformer在文本分类任务中的能力,提高了当前深度模型在文本分类任务中的表现。

其他文献

复杂网络中零模型算法改进及传播研究

复杂网络零模型抽象出某些网络的实际特征,可以与初始网络形成参照对比。动力学传播问题比如谣言传播、病毒传播一直是复杂网络中的一个研究重点,利用各种方法去研究复杂网络传播问题,具有现实意义。本文首先介绍了零模型的基础概念、构造方式、相关算法及应用;然后根据实际情况,对现有的不同阶次零模型算法进行了改进;最后用所生成的不同阶次零模型研究复杂网络中的病毒及谣言传播。本文贡献总结如下:1.针对通过现有2阶零

学位

零模型病毒传播谣言传播算法改进

诗词类电视综艺节目的创新传播研究

近年来,随着海外热播节目大规模引进,我国电视综艺节目的内容生产已呈现井喷状态,一大批为片面追求高收视率、高经济效益的真人秀节目迅速雄霸荧屏,电视节目出现严重同质化倾向,给我国电视环境带来极大冲击。2016年,国家新闻出版广电总局发布《关于大力推动广播电视节目自主创新工作的通知》,支持鼓励自主原创节目。此后,一批致力于传承和弘扬中国优秀传统文化的电视综艺节目悄然而生。其中,以中华古诗词文化为创作源泉

学位

诗词类电视综艺节目创新传播

基于特征协同作用的生物数据分析方法研究

近年来,随着计算机技术的飞速发展,生物信息学取得了长足的进步。如何从生物数据中挖掘出有用的信息,是生物信息学研究者们需要解决的问题。研究表明,从协同的角度对生物体内

学位

生物信息学生物标志物协同作用特征选择分类

NVST高分辨率磁像仪控制系统研制

为获得高分辨率的太阳二维磁场数据,NVST磁像仪采用了“同光程异构图像重建”技术,通过信噪比高的光球图像获取大气传递函数来重建信噪比低的窄带偏振图像。这就对数据采集和

学位

高分辨磁像仪两通道序列斑点图同步采集高时空同步精度偏振调制状态同步

序列相关结构下面板数据横截面相关性的检验

截面相关检验是近年来面板数据模型研究的热点问题之一.传统的截面相关检验都假定误差项不存在序列相关性,但序列相关是面板数据分析中普遍存在的问题.为此,本文对传统的CDlm

学位

截面相关检验序列相关性CDlm检验修正CDlm检验渐近正态分布

转控分离vBRAS在城域数据网中的设计与实现

近年来,随着网络新业务的快速发展,传统宽带远程接入服务器控制面和转发面紧耦合架构下的资源利用率、业务部署周期、维护管理以及建设成本存在的问题和不足也逐渐显现,同时

学位

城域数据网软件定义网络网络功能虚拟化vBRAS转控分离

网络舆论下“道德绑架”问题研究

网络在人们的社会生活中不断普及,它不但能够为人们提供更多的沟通平台,使人们能够发挥自己的话语权,还能使人们充分发挥自己所拥有的媒介权力,即“第五种权力”,其被称为网

学位

道德舆论网络舆论道德绑架网民大众

微电网中分布式电能的交易机制研究

微电网作为一个相对独立运行的电网结构,是未来分布式可再生能源参与电能交易的主要市场。在微电网中,分布式电源(Distributed Generation,DG)的渗透率不断提高,导致了电力供

学位

微电网电能交易区块链拍卖机制合约订单

光遗传调控SOCE通路诱导NFATcl与NFATc3活化在神经祖细胞分化调控中作用机制的研究

神经祖细胞(Neural Progenitor Cell,NPCs)是中枢神经系统(Central Nervous System,CNS)中一种特殊类型的专能干细胞,具有自我更新和定向分化为星型胶质细胞(Astrocyte,Ast),少突胶质细胞(Oligodendrocyte,OL)和神经元(Neuron,Neo)的能力。NPCs不仅作为哺乳动物CNS发育早期的神经发生细胞,在成熟的CNS中,N

学位

神经祖细胞钙离子NFAT分化凋亡

面向功能行为层次化建模的AADL行为附件扩展及验证方法

AADL(Architecture Analysis and Design Language)是一种用于描述复杂嵌入式系统体系架构的建模语言国际标准,被广泛用于安全关键系统的建模与验证。AADL通过系统、子系统、

学位

模型驱动开发AADL行为附件层次行为附件模型转换形式化验证

基于自注意编码的文本分类方法研究

与本文相关的学术论文