LSTM的压缩及其FPGA加速的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器翻译,语音识别和文字预测等应用成为自然语言处理领域研究中的热点和难点,循环神经网络(Recurrent Neural Network,RNN)网络在这些应用中总能获得很好的表现,尤其是长短时间序列(Long Short-Term Memory,LSTM)。LSTM在RNN单元中加入了门单元,使得其长时间记忆能力更强,适合解决复杂的学习问题,但也带来了高计算复杂度和海量存储的需求。随着现场可编程门阵列(Field Programmable Gate Array,FPGA)计算力的增强,灵活性的提高,开发难度的降低,使得FPGA加速神经网络推理的研究受到广泛关注,但FPGA的存储资源相对有限,在满足FPGA存储的要求下高性能且低能耗的实现LSTM具有重要的研究意义。由于LSTM通常占用大量的存储空间,难以存储在有限的FPGA片上随机存取存储器(Random Access Memory,RAM)资源中。为了解决这个问题,本文通过对LSTM网络模型的研究,提出了一种压缩策略,并结合软硬件协同设计的思想实现一个基于FPGA的LSTM加速器。首先,本文分析了LSTM的权重特点,从现有的剪枝算法中选用权重矩阵结构化剪枝算法进行剪枝,获得易于硬件加速的稀疏矩阵。第二,本文提出了混合精度量化多层LSTM的方法,它可以减少多层LSTM的存储需求,并且将权重矩阵结构化剪枝和混合精度量化结合,最大程度的压缩多层LSTM。第三,针对压缩后稀疏矩阵的特点,本文研究了稀疏矩阵存储的方式,改进了CSC存储格式,进一步降低存储空间的占用。最后,本文基于Xilinx的Zynq系列FPGA实现了多层LSTM加速器,其中,Zynq的处理器系统单元(Processing System,PS)实现数据的预处理功能和Softmax函数,可编程逻辑单元(Processing Logic,PL)实现LSTM推理计算。本文通过手写字母识别和语言模型两个实验,证明提出的神经网络压缩方法的有效性。在语言模型中,本文提出的压缩方法将网络模型压缩了53.3倍,得到的困惑度与传统压缩方法压缩40倍相同;在手写字母识别实验中,本文提出的压缩方法将网络模型压缩42.6倍,得到的准确率与传统压缩方法压缩32倍相同。最后,本文在Xilinx的Zynq 7020 So C上实现LSTM加速器进行手写字母识别实验,测试LSTM加速器的能量效率,并与CPU和GPU平台进行对比,实验结果显示,LSTM加速器比CPU和GPU的能量效率提升了387.72倍和8.41倍。本文的设计方法可以为加速卷积神经网络(Convolutional Neural Network,CNN)、门控神经单元(Gate Recurrent Unit,GRU)等其他类型的神经网络提供参考。
其他文献
随着柔性制造系统的智能化、高效化发展,多AGV调度系统的应用,不仅能有效改善传统物流仓储中心存在的劳动力成本高、移载工具柔性差、效率低和误单率高等问题,还提高了土地利
全无机CsPbX_3钙钛矿材料具有优异的光电性能,在光电器件领域有着巨大的应用潜力。然而,由于稳定性差、铅的毒性以及对发红光的CsPbI_3钙钛矿纳米晶研究进展相对滞后等问题使其不能满足实际应用的需要。为了解决上述问题,本文选择在高稳定的玻璃基质中原位晶化出基于CsPbI_3的钙钛矿纳米晶,并将制备的红光微晶玻璃成功应用于发光二极管(LED)等先进照明领域。根据以上研究要点,本论文主要包括以下部分
随着工业不断的发展和进步,切削振动已经成为限制表面质量的主要原因之一。金属切削加工过程中产生的振动不仅降低被加工产品表面质量,而且影响着数控设备和刀具的寿命、刚性和可靠性等。如何降低数控设备切削加工过程中的产生的切削振动已成为国内外专家学者研究的热点。本文针对数控铣床在切削过程中产生的振动对工件表面质量的影响,提出以高表面质量和低振动为优化目标对切削参数进行优化。切削参数的选择直接影响着切削加工过
哨声模合声波是地球磁层中一种强电磁波模,既能加速辐射带电子至相对论能级,又可以散射辐射带能量电子到中高层大气造成其沉降损失。合声波与辐射带电子之间的波粒相互作用是导致辐射带电子增强事件的核心机制之一;另外,它导致的辐射带电子沉降能激发弥散极光和脉动极光现象,是影响磁层-电离层耦合系统的重要过程。其中,下频带合声波(即频率低于0.5电子回旋频率)发挥着重要的散射作用,是理解地球内磁层波粒相互作用过程
在重大自然灾害过后,基础通信设施基本瘫痪,灾区内的人们可以通过移动自组织网络在短时间内建立起通信网络协调开展救援工作,而邻节点间的相互发现是移动自组织网络能够提供服务的前提。在基于BLE(Bluetooth Low Energy,蓝牙低功耗)的移动自组织网络中,节点间的发现是单向的,扫描节点能够发现广播节点,广播节点不能发现扫描节点,而移动自组织网络中的节点应该同时具有发现邻节点和被邻节点发现的功
物联网技术作为我国信息技术发展的第三次革命,对各行各业的发展都发挥了重要的推动作用。农业作为物联网技术应用的重要领域,在农业领域的不断应用不仅为农业经济的现代化发展做出了重要贡献,同时也为农村信息化建设以及农村社会进步与发展产生了积极影响。但是农业物联网在我国仍然属于新兴事物,在部分地区的初步推广工作也出现了诸多问题,这导致农业物联网技术的作用没有有效发挥,因此有必要对我国农业物联网技术的推广应用
水下信号处理技术是开发维护海洋必不可少的技术手段,波达方位估计作为水下信号处理的重要分支,一直都是热门研究课题。传统的DOA估计手段多是建立在窄带信号的基础上,而在实际工程中信号多为宽带信号,因此对于宽带信号高分辨DOA估计算法计算量大,低信噪比情况下性能退化等问题的研究极具现实意义。MUSIC算法作为高分辨DOA估计算法的重要方法之一,存在计算量大的问题。针对此问题,本文提出了一种改进的MUSI
随着教育理念以及互联网技术的不断发展,英语教学形式不断创新。其中微课作为互联网发展的产物,被广泛的应用于英语教学之中。当代小学生从小接触网络以及电子产品,对于微课这样的教学形式能够迅速接受。小学英语语法教学在整个小学英语学习中是较为单调和枯燥的一个版块,但语法教学的重要性也是新课程标准中尤为强调的。那么,将微课应用于小学英语语法教学能否帮助学生提高英语语法成绩和学习兴趣值得广大小学英语教师关注。基
随着互联网和人工智能时代的到来,国家各个领域对于高层次的人才需求持续的增长。在深化研究生选拔和培养的供给侧结构改革、促进研究生教育的高质量发展以及考研培训产业转型和升级的背景下,当前考研培训市场的格局也必将发生改变,很多企业也会面临着新的危机和挑战。X公司,成立于2005年,主营业务是考研培训项目。在教学质量和教学服务上不断探索和升级,赢得了客户的信任和良好的口碑,但是在山东省考研培训市场上,其营
目前,大型泵站主要采用故障检修与定期检修相结合的维修方式,实现对泵站的安全运行管理。许多泵站已经增设了状态监测系统,然而主要以状态监测为主,部分系统提供了状态评价和故障诊断软件功能,但实际应用效果远未达到预期效果。其主要原因包括:水泵机组的状态量成分复杂,状态特征提取难;影响水泵机组状态的因素多,难以建立精确的状态评价模型等。为提高大型泵站的运行管理水平,结合南水北调泵站群运行管理的需要,针对目前