基于Transformer的大型语言模型的压缩技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:candry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Transformer模型已经被广泛地应用在许多自然处理任务中,其核心组件是带刻度的点积注意力机制(词级注意力)。该注意力机制是一种单词级别的设计,关注的是任意单词对之间的相似性,因此它的复杂度在序列长度上是二次级的,这也大大限制了其在长序列任务上的应用。为了获得一个更加轻量高效的注意力机制,本文提出了两种新的注意力机制。一是本文提出了维度注意力机制,并在此基础上开发了一种新的语言建模方法,名为Tensor Coder。维度注意力降低了原始点积注意力的复杂度,从原始的(~2(9)降到((9~2),其中是序列的长度,(9是注意力机制中词向量维度的大小。二是本文提出来一个新的自注意机制(Two-Way Self Attention,TWAttention),其可以在一个统一的框架下同时建模上下文相似性的两个方面,即词级相似性和特征相似性。除了可以建模更加完善的上下文信息,TWAttention也可以降低Transformer中注意力机制的复杂度,将原始的二次级复杂度降到线性复杂度,这将大大改善模型的内存效率。本文在两个任务上(遮蔽语言模型任务和机器翻译任务)验证了Tensor Coder模型的性能表现。与基线模型相比,Tensor Coder即减少了原始模型(Transformer)的浮点数计算值,也在遮蔽语言模型任务(在PTB数据集)上获得了性能提升,在机器翻译任务上获得可比较的性能。另外本文在另外几个任务上验证了TWAttention模型的效果,包括神经机器翻译实验,GLUE任务、自然语言推理和文本匹配实验。比起Transformer,Linear Transformer和一些预训练语言模型(如BERT),结果发现TWAttention不仅降低了模型计算消耗和内存占有,而且在一些任务上获得了更好的表现。
其他文献
学术合作网络蕴含着学者的合作模式与学术发展的趋势,通过学术合作分析可以快速掌握最新科研动态和获取领域内重要科研人员,最终实现对领域学术技术的总体把握。复杂网络表示学习是分析学术合作网络必不可少的敲门砖,但是目前的表示学习模型多注重保留节点的一阶、二阶相似性,很少可以保留网络中与空间无关的结构相似性特征。故本文以学术合作网络为研究对象,针对上述问题,对具有良好解释性的非负矩阵分解的复杂网络表示学习方
学位
语言建模在自然语言处理和与信息检索相关的任务中至关重要。在统计语言模型出现之后,有人提出了量子语言模型(QLM),在相同的概率空间中统一单个词和复合词,而无需以指数的方式扩展词表空间。尽管量子语言模型在专项检索中取得了良好的性能,但它仍然有两个主要局限性:(1)量子语言模型无法利用监督信息,这主要是由于密度矩阵的迭代和不可微估计。(2)量子语言模型假定单词或单词相关性的可交换性,而忽略单词的顺序或
学位
“十四五”规划纲要指出,要加快发展智慧农业,推进农业生产经营和管理服务数字化改造,全面推进乡村振兴。随着快递配送业务系统的不断完善,电商覆盖面不断扩大,线上销售更加普及。因此,充分利用电子商务平台优势深化农产品电商发展,成为农民专业合作社(以下称“合作社”)、家庭农场等新型农业经营主体助力乡村振兴、促进农业数字化发展的重要突破口。
期刊
舆论场是舆情存在的基本形式,对舆论场建模同时预测其信息传播规模,对于新发重大风险事件的监测、预警和应对具有重要的研究意义。然而,在计算机科学领域尚未有一个明确的舆论场概念界定,且传统的信息传播模型不能有效提取舆论场信息传播的潜在特征,导致预测结果不够准确。因此,本文基于本体并融合多元空间要素对舆论场建立概念模型,同时研究其信息传播预测问题,具体工作如下:首先,提出了基于“地-事-人-行为”的多层异
学位
时代不停向前发展,技术也随之不断进步,如今移动互联网已经越来越普及,现代生活正在逐步进入人工智能时代。互联网成为了大众群体无论是日常休闲还是工作学习时发表自身看法和建议的重要平台,因此在每个平台上,各行各业中都产生了大量的文本信息,而公众的情绪就蕴藏在这些观点和态度之中,同时这些文本情绪可能会对事件的未来发展趋势起到一定程度的影响。情感分析旨在判断文档、句子级别上各种类型文本的情感极性,不论是在理
学位
近年来科学文献分析已经成为热门研究问题之一。通过对科学文献进行构建复杂网络分析研究,挖掘科学文献的内在规律可以熟悉前沿科研动态,获取科学领域内重要科研人员,掌握重点科学领域的研究现状和发展趋势。这是科学文献情报分析的重点,同时也是情报分析领域的重要问题之一。但是传统的科学文献分析方法大多停留在宏观问题上,如仅仅关注影响评估等工作,而对科学文献中科研人员的主题合作,以及某领域内研究主题演化等内容缺乏
学位
背景:髓内钉置入内固定是治疗股骨干骨折的经典方案,其远端瞄准架被广泛应用于远端锁钉的置入,提高了远端锁钉置入的准确率,但其失败率仍然不容忽视。研究出一种可实现远端锁钉快速且精准锁钉的新技术,减少徒手锁钉时的X射线放射性损伤,是当务之急。目的:比较占位压杆技术和徒手锁钉技术在股骨髓内钉远端锁钉置入中的效果。方法:建立发生压杆偏移不能准确置入远端锁钉的股骨模型骨8个,分2组处理:占位压杆组(n=4)采
期刊
一条完整的漏洞描述应当具备六种关键信息:漏洞类型、根本原因、受影响的产品、影响、攻击者类型和攻击载体。这种漏洞信息的组合方式可以方便软件维护人员有效地管理,缓解和预防日益增多的软件漏洞。然而,在通用漏洞数据库(CVE)中存在着较为严重的关键信息缺失问题。关键信息的缺失会导致研究人员无法准确的分析漏洞的状态和特征,致使许多基于漏洞报告进行的研究在结果上产生较大的误差。尽管现有的漏洞报告正在随着漏洞分
学位
知识问答方法允许用户以输入自然语言问句的方式访问知识库中的内容,它帮助用户以一种更加自然的方式获取知识库中内容。问答系统要为海量用户提供服务,因此它需要具备高效处理批量问句的能力。并行是高效处理批量问句的一种简单但有效的方法。然而,并行的批量知识问答方法面临如下三个挑战:首先,批量问句之间可能包含子问句层次上的公共语义,而公共语义的冗余处理会导致时间代价的巨大浪费。复杂问句与简单问句处理时间代价相
学位
在自然语言处理领域,随着深度学习网络技术的广泛应用,越来越多的复杂模型声称在规范良好的数据集上有着更好的性能表现,但是随之而来的是对深度学习网络本身可解释性的担忧,犹如萦绕在科研工作者头上的定时炸弹。最近部分研究者受到量子理论的启发,在自然语言处理领域提出了一种基于量子理论数学框架的语言模型,通过将不同的单词表示为基本量子态,并使用密度矩阵建模包含若干单词的句子,构建一个量子混合系统,以期表示人类
学位