基于Transformer模型的文本分类研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:guorui146105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为自然语言处理领域的基础课题之一,一直以来都有着重要地位。目前在众多基于深度学习进行文本分类的方法中,以Transformer模型为基础的方法最为热门,其中一个最突出的例子就是BERT模型。Transformer模型进行文本分类能够取得良好表现的关键就是它的自注意力机制,该机制保证了模型能够从长短不一的文本中提取到有用的语义信息,进而实现文本分类。本文对BERT模型的随机生成掩码生成机制做出了改进,提出了双层掩码生成模型,具体做法为,在内层训练语言模型,将输入语言模型的文本做掩码标记后输出到外层进行进一步训练;外层利用强化学习决定最优的掩码策略,并将得到的掩码策略输入到内层语言模型指导预训练。这样循环保证语言模型能实时更新掩码策略,并且生成的都是当下最优的掩码,进而增强模型的提取信息能力,提高分类效果。此外,本文还对Transformer模型的多头注意力机制做出了改进,以提高Transformer模型提取信息的能力,提高文本分类的效果。具体做法为,利用Drop Head对Transformer模型的注意力头进行修剪,修剪后的Transformer模型更为稳定,并且能够将注意力关注到更多的子空间中,增强模型获取信息的能力,进而提高文本分类的效果。
其他文献
随着城市化的持续推进,目前全球大部分人口集中在城市。当城市战争、恐怖活动发生时需要搜索发现敌情,当城市灾害、事故出现时需要搜索救援,目标搜索需求越来越强烈。与此同时,城市环境中目标搜索存在诸多困难。小型、微型无人机能够在建筑物中间来回穿梭,甚至进入室内;能够克服人员地面视角和大型飞行器高空视角的局限性,寻找最合适的观察高度和角度进行目标搜索,是解决困难的极佳手段。和单无人机任务系统相比,多无人机系
学位
多智能体系统的集群现象在自然界中普遍存在,在生活中也有着广泛的应用.由于实际需求,不仅需要系统形成集群,而且需要保证系统形成某种固定的构型.因此越来越多的学者开始关注系统的集群编队行为,并从理论对这种现象进行建模与分析.在已有的文献中给出了很多关于系统集群和有限时间集群的丰富成果,对于两种混合型的集群行为分析的文献很少,本文将考虑一类混合型Cucker-Smale模型的有限时间集群行为.对于Cuc
学位
商业银行薪酬结构不当被认为是金融危机爆发的内部诱因之一。商业银行作为我国重要的金融中介,对我国金融发展与金融稳定发挥着举足轻重的作用。在商业银行迅速发展的同时,其的存贷利差受到冲击,盈利收窄下商业银行将倾向于开展高风险业务,并且在此过程中信用风险不断积累,从而导致商业银行的风险承担的变化。此时,商业银行薪酬结构的不完善也日趋凸显。本文以2010-2019年36家境内上市商业银行作为研究样本,基于上
学位
深度学习的发展热潮正在席卷全球,为推动该领域的高速发展,各大厂商纷纷推出了自己的网络框架和加速芯片。但由于框架和硬件的多样性,在不同硬件上高效部署各框架下的网络模型成为了一个难题,深度学习编译器的出现成功的解决了该难题。GPDSP是由国防科技大学计算机学院自主研发的高性能处理器,该处理器采用了超长指令字的体系结构,同时支持多核和向量指令扩展,十分适用于并行计算及AI云端计算。本文的主要工作是实现与
学位
报纸
随着全球商品国际分工的不断细化、各国之间的产业协调合作也在逐步深入,国内价值链攀升的问题也逐步深入到全球的生产网络分工当中。如何更好地发挥国内国际两个市场的引导作用,一直是影响中国生产技术进步的重要影响因素,加快统一开放、有序竞争的现代市场体系的建设,消除地区市场间的壁垒则是又一影响生产技术进步的关键因素。在严峻复杂的国际形势下构建内外互通、联动发展的经济循环格局,逐步摆脱以往发展模式中过度依赖中
学位
移动性是移动传播的一个本质特征。从三元空间理论视角看,移动传播形构了新的媒介空间样态,在物质空间、精神空间与社会空间层面分别表现为移动的个体空间、多元的内容空间与亲历的实践空间。随着移动传播发展为占主导地位的媒介传播形态,这种空间形态也逐渐固化,成为具有"型范"意义的媒介空间形态,对社会产生了革命性的影响。
期刊
面对碳排放持续增长造成的环境难题,为落实2030年前达到“碳峰值”,争取2060年前实现“碳中和”,中国继续推动《巴黎协定》全面有效地实施的同时,在“十四五”期间积极采取碳减排措施,并基本建成全国碳交易市场。然而,中国碳排放总量仍维持增长趋势,成为全球碳排放量最多的国家,而且作为碳减排有效手段的碳交易市场仍处于起步阶段,碳汇交易仅有少量实践案例,国内外没有统一有效的碳汇定价方法。因此,中国碳排放及
学位
基于卷积神经网络的人工智能应用正在快速落地,卷积神经网络加速器成为新的研究热点。占据整个卷积神经网络90%以上计算量的卷积层是加速的关键,对卷积神经网络中应用特别广泛的具有代表性的两种卷积计算变形空洞卷积计算和转置卷积计算的高效支持也是亟待解决的问题。本文对卷积转化为矩阵乘法的方法展开研究,为加速器设计了高效的映射优化方法,实现了灵活通用的加速器架构,提高了加速器对标准卷积计算的性能,增加了对空洞
学位
随着高超声速领域的飞速发展,高超声速飞机(高超飞机)是近代战略性武器研究的重点目标之一。伴随着乘波体设计方法的逐步丰富,将乘波构型设计方法应用于高超飞机上解决其面临的升阻比难题是一个不错的思路。乘波飞机是高超飞机的一种,为了改善在乘波飞机在飞行中遇到的头部激波对机翼产生的激波干扰、“升阻比屏障”和容积不足等问题,本文对乘波飞机的设计方法和优化方案展开了剖析和研究。通过对目前存在的高超飞机外形进行调
学位