Transformer模型压缩算法研究及硬件加速器实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wMystarw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能领域的关键技术。在自然语言处理领域,基于注意力机制的Transformer模型表现出比传统的神经网络更好的性能,已经成为各类任务中的主流模型。Transformer具有参数量大和运算量高等特点,需要大容量存储和高性能计算,限制了其在资源受限的边缘端设备中的应用。而边缘端部署具有离线、实时性高、数据保密等优势,应用场景广泛,亟需设计边缘端Transformer硬件加速器。但是设计边缘端Transformer硬件加速器存在两个问题:现有的模型压缩算法普遍存在较大的索引匹配开销和计算负载不均衡问题,影响了计算效率;现有加速器设计没有与压缩算法高效协同,造成了数据移动开销大和硬件资源利用率低等问题。针对上述问题,本文提出了一种高效的算法和硬件协同优化的Transformer加速器设计方案。主要工作如下:(1)针对现有模型压缩算法存在的索引匹配开销大和负载不均衡问题,本文提出了一种使用偏移对角矩阵对Transformer进行稀疏剪枝的方法。剪枝后的权重具有规则化特点,可通过偏移对角矩阵的块大小和偏移量进行高效索引匹配,有效降低了索引匹配开销;同时,规则化的参数矩阵也使得各周期的计算负载变得均衡,提升了硬件计算效率。此外,本文还优化了量化推理逻辑,采用移位操作替换浮点乘法,并结合模型特点提出量化误差校准方法,减少了硬件计算成本。在机器翻译任务中,实验结果表明可以在性能损失小于1%的情况下,将模型参数量压缩4倍,实际存储量压缩16倍。(2)针对现有加速器设计与压缩算法存在的协同问题,本文结合上述模型压缩算法进行了加速器设计。提出了一种块状运算阵列和块稀疏的计算模式,并结合优化稀疏矩阵的存储和计算单元内的数据分配机制,消除了稀疏性带来的不必要计算和缓解了不同序列长度带来的资源利用不足等问题,实现了高数据复用和高硬件资源利用率,有效降低了数据移动开销。此外,本文还对模型中的复杂非线性函数进行了高效硬件实现,减少了硬件资源消耗。设计的硬件加速器可以根据模型超参数和延迟需求进行灵活配置。(3)基于上述提出的算法和硬件层面的优化设计,本文在Xilinx FPGA上实现了硬件加速器。与GPU相比,所提出的硬件加速器在多头注意力子层和前馈神经网络子层实现的加速为13.5倍和4.2倍。与现有工作相比,具有更高的硬件资源效率。相比于CPU和GPU,能效比分别提高了12.45倍和4.17倍。
其他文献
DELLA基因是GRAS转录因子家族中的一员,是GA信号转导通路中的核心调控因子,可以通过与植物体内转录因子的进行蛋白互作的方式在植物信号转导中起作用。本文对谷子中的DELLA基因进行了筛选鉴定,通过生物信息学手段揭示其理化性质、蛋白结构、进化关系和时空表达特征等,并在此基础上对DELLA基因在谷子逆境下萌发及拔节期茎中的表达模式进行分析。明确谷子基因组中DELLA基因的数量、结构和时空表达特性,
学位
随着全球气温不断升高,土壤碳循环备受关注,农田土壤固碳能力如何提升一直是研究的热点。晋中地区常年连作春玉米,对土壤肥力造成不利影响。为阐明不同轮作模式下其土壤固碳效果及其机制,于2020-2021年度在山西晋中进行了田间试验,设置RSM(小播量油菜-玉米轮作)、RMM(中播量油菜-玉米轮作)、RLM(大播量油菜-玉米轮作)、RSW(小播量油菜-小麦轮作)、RMW(中播量油菜-小麦轮作)、RLW(大
学位
在信息技术高速发展的今天,模数转换器作为信号处理的关键环节,发挥着不可或缺的重要作用。近年来,多种混合架构的模数转换器被提出。噪声整形SAR ADC作为一种混合架构,既保持了SAR ADC低功耗、结构简单的特点,又结合了Delta-Sigma ADC的噪声整形技术,能够在实现高精度的同时保持很高的能效,也更加兼容工艺的演进。CIFF型噪声整形SAR ADC因其结构简单而受到了广泛的关注,然而该结构
学位
干旱胁迫作为限制植物生长的重要因素,对作物的产量也有严重的影响。γ-聚谷氨酸(γ-PGA)作为一种新型的保水剂在大多数蔬菜上都有着良好的保水效果,但在杂粮作物,尤其是谷子上还缺乏应用。为了明确谷子受到的干旱胁迫后γ-PGA对其的缓解机理,本研究采用萌发试验筛选不同抗旱性的谷子品种,采用盆栽试验明确抗旱品种“冀谷36”和不抗旱品种“冀谷38”在干旱胁迫下形态、生理和分子差异后,对不抗旱品种“冀谷38
学位
为节约功耗,物联网设备需要时钟唤醒整个系统。晶体振荡器作为常见的系统时钟模块,具有稳定的频率特性,但晶体振荡器从唤醒至完全启动往往需要数百微秒的时间,起振时间长,功耗浪费大。本文围绕晶体振荡器启动时间长而导致功耗大的问题,基于28nm CMOS工艺,设计了一种新型的快速起振晶体振荡器。为了减少晶体起振时间,本文基于恒定能量注入启动的方法,提出了一种基于差分式环形振荡器复用式结构的晶体振荡器,保证了
学位
高速公路“绿色通道”的国家政策于2019年对载有鲜活农产品的车辆进一步放宽了通行费减免标准,但其具体要求如运载货物是否为规定范围内的鲜活农产品,满载率是否达到80%以上,混装是否低于20%,货物超限是否小于5%等,都增加了绿通车辆核查的工作量和难度。X射线由于其具有透视观察车内物品和货物满载程度的优势,已成为很多高速公路绿色通道入口检测的重要设备。为提高在线检测的自动化技术水平,本文针对大尺度线阵
学位
衰老是植物生长发育的最后阶段,是一种自发启动的细胞程序性死亡过程,由外界环境和内在因子共同作用。小麦是世界上重要的粮食作物,其衰老的快慢很大程度会影响作物的产量和品质。因此,研究小麦衰老过程相关基因的功能和调控机制对于提高小麦产量和品质具有重要意义。课题组前期利用持绿型品种和衰老型品种,对衰老不同阶段的旗叶进行转录组测序,分析发现NAC转录因子Ta NAC92高表达;另外,前人研究发现NAC92在
学位
油莎豆(Cyperus esculentus)块茎含油量大、适应性广、生物质产量大,被认为是最具发展前景的特色油料作物之一。油莎豆油富含油酸(>70%),油脂品质媲美橄榄油,更适合人类食用和制备优质生物柴油。然而,油莎豆块茎油酸富集的分子机制仍然未知。挖掘油莎豆参与块茎油酸及油脂富集的关键基因可为全面解析植物营养器官油脂合成调控机制以及在营养器官组装油脂富集途径提供优异基因元件和科学基础。质体硬脂
学位
为充分利用麦收后自然资源,提高土壤肥力、改善土壤供磷状况,推动晋中地区构建绿肥油菜—冬小麦轮作制度,于2020-2021年在山西农业大学冬小麦试验田开展绿肥油菜还田试验。油菜播种前设不施肥处理(CK0)、氮肥150 kg/hm~2(N)、氮肥150 kg/hm~2+磷肥60 kg/hm~2(NP1)、氮肥150 kg/hm~2+磷肥120 kg/hm~2(NP2)四个肥料用量;于后茬小麦播前20天
学位
近年来,5G通信技术、医疗、物联网和汽车电子等科技的飞速发展对模数转换器(Analog-to-Digital Converter,ADC)提出了更高分辨率和更低功耗的要求。与此同时,新兴的ADC架构——噪声整形逐次逼近寄存器型模数转换器(Noise Shaping SAR ADC)融合了SAR(Successive Approximation Register)ADC高能量效率以及Sigma-De
学位