基于仿射量化的卷积神经网络加速器设计与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:lideqiang163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络被广泛应用于语音识别、目标检测及图像分割等领域。随着卷积神经网络算法的快速发展,大规模的卷积神经网络模型消耗大量的计算资源和存储资源,给卷积神经网络的应用带来了许多挑战。目前,卷积神经网络主要部署在云端服务器,终端数据需要传输到服务器端处理,功耗高,处理延迟大。为了解决这些问题,基于FPGA的卷积神经网络加速器逐渐成为研究热点。然而,FPGA平台受限于片上资源和片外内存带宽。在有限的资源下,为实现高性能卷积神经网络加速器,对卷积神经网络进行压缩意义重大。
  首先,本文分析了仿射量化的原理,并将仿射量化应用于卷积神经网络推理过程。根据仿射量化造成数据精度损失的原因,提出不同的量化参数求取方法。基于Tensorflow深度学习框架实现卷积神经网络量化推理过程,并分析了不同量化参数求取方法和不同量化精度对卷积神经网络top-1准确率的影响。为了提高量化后卷积神经网络的准确率,提出混合精度量化的优化策略。实验结果表明,通过使用合适的量化参数求取方式,将激活值和权值都量化成8位,可保证卷积神经网络的准确率下降在1%以内。
  其次,本文基于Zynq-7000系列FPGA,实现了加入量化操作的高性能卷积神经网络加速器。根据卷积神经网络和嵌入式FPGA平台的特点,提出软硬件协同计算架构。在有限的片上资源的约束下,通过权衡DSP和LUT的使用来实现乘法器,对加速器的并行度和性能进行分析,选取了合适的并行度。针对1×1的卷积运算,提出复用并行度的设计。为提高DSP的利用率,提出使用1个DSP实现两个8位乘法器的优化策略。为提高分块速率,提出二维DMA分块策略。实验结果显示,本文提出的卷积神经网络加速器平均性能可达到416.3GOPS,在相同FPGA平台的加速器中性能最高。性能是CPU的3.75倍,能效是GPU的1.42倍。
其他文献
红外图像中往往包含很多人眼不易或不能察觉的信息,在国防军工,安保监控等方面应用广泛。但是红外图像存在色彩单一、分辨率低等问题,所以红外图像增强一直是研究的热点,例如红外图像彩色化,红外与可见光图像融合,红外图像超分辨率重建等。基于传统算法的红外图像增强方法往往依赖像素间的关系,不能很好地学习图像内的信息与特征。生成对抗网络(GAN)通过生成器和判别器的博弈优化网络性能,可以充分学习图像中的信息与特
近年来,柔性电子已经受到了越来越多的关注,而且被应用到了柔性显示、柔性可穿戴设备和柔性光传感器等多领域。单晶硅由于可以实现较高的载流子迁移率并且与工业上的互补型金属氧化物半导体(CMOS)工艺相兼容,因而被看作是柔性电子中最好的半导体材料。柔性薄膜晶体管是柔性电子中最重要的基础性器件之一,基于单晶硅薄膜做有源层,高介电常数材料做栅介质层的柔性薄膜晶体管有望被应用在多种高性能的应用中。但是其局限性就
近年来信息安全问题日益突出。密码算法虽然为关键信息提供了一定的保护作用,但是实现密码算法的集成电路仍存在安全漏洞。针对密码电路的攻击主要分为侧信道攻击和故障注入攻击两种。故障注入攻击首先主动向密码电路注入故障,然后采用故障分析方法对故障结果进行处理来破解密钥。故障注入攻击具有攻击能力强、攻击效率高的特点。然而,大多故障分析方法提出的故障模型较为严格,采用现有的故障注入技术去实现,可能会带来较高的成
生命体征能够反应生命体的健康状况和确定生命体是否存在,其中呼吸和心跳特征是生命体征最重要的指标。基于连续波多普勒雷达的生命体征探测技术抗干扰能力强,不易受外界环境的影响,可以广泛应用于搜寻救援、医疗监护和健康监护等领域。因此,开展多普勒雷达生命体征探测技术的研究具有非常重要的意义和广泛的实用价值。  目前,基于多普勒雷达的生命体征探测技术仍然存在一些问题需要解决,诸如需要解决探测零点问题提高探测精
压控振荡器是无线通信系统、雷达系统收发机的重要组成部分。其性能的优劣在一定程度上决定了整个系统的功能。尤其是相位噪声和功耗,它们直接影响了评估振荡器整体性能的质量因数的大小,是设计压控振荡器的重要指标。  本文针对“低相位噪声、低功耗CMOS压控振荡器的设计”这一课题展开具体的研究。主要工作包括:(1)针对近二十年来发表的基于电感电容的压控振荡器相关的重要文献进行了文献综述。这部分对基于电感电容的
高效视频编码HEVC(High Efficiency Video Coding)诞生于2013年,由ITU-T和ISO/IEC联合制定,为上一代编码标准H.264/AVC的升级版,在同等压缩质量下压缩率能够提高一倍。但目前市场上应用最多的仍然是H.264,HEVC的发展受限于很多情况,其中很重要的一点就是其编码算法过于复杂。以帧内预测为例,相比于H.264,HEVC的预测模式从9种增加至35种,同
荧光寿命成像技术通过测量样本的荧光寿命值,进而得到样本及其所处微环境的理化特征,因其具有灵敏度高、可靠性强等优点被广泛应用在了细胞生物学、癌症诊断、药物动力分析等领域。时间数字转换器(TDC)作为荧光寿命成像的核心电路模块,其性能直接关系到荧光寿命成像系统的功能实现和结果优劣,但目前TDC的设计中存在有时间分辨率、动态范围和测量误差相互制约的问题,如何克服它们之间的矛盾,设计一款高性能的TDC对荧
近些年,随着无线通信技术的飞速发展,毫米波信号源在遥感、医疗、成像、探测等领域得到了广泛应用。毫米波信号源作为无线发射机射频前端最关键的模块,其研究一直以来都是射频通信领域的焦点。纵观毫米波信号源的发展历程,其研究主要围绕如何提高输出功率、带宽和频率纯度等各方面的性能指标展开。受集成电路工艺的限制,直接通过振荡器获取的信号源输出功率低、带宽窄、稳定性较差,从而限制了整个毫米波系统的性能。因此,可通
脑肿瘤是当今神经外科常见的疾病。早期筛查和诊断可极大地提高脑肿瘤患者治愈率、降低病死率。脑部影像学检查方法中,由于核磁共振成像(MRI)具有无放射性损害以及高度的软组织分辨能力等独特优点,已经发展成为用于诊断脑肿瘤疾病的主要方法。由于MRI图像数据量大,并且脑肿瘤形状极其不规则,因此人工分割脑肿瘤非常耗时,而且可能错过微妙的异常。为了提高医生的诊断效率,降低因医生主观因素造成的误诊和漏诊,本文以三
太赫兹(Terahertz, THz)成像技术作为目前研究较多和发展较快的太赫兹技术之一,按照其成像信息的位置又可分为远场成像和近场成像。远场成像主要是通过探测器获取电磁波透射过物体或经物体反射后的电磁波信息进行成像,其存在的主要问题是探测信号弱、衍射极限下成像分辨率不高,通常在几十毫米的水平。近场成像通过将获取成像信息的位置移至物体表面,利用基于近场扫描光学显微镜(NSOM)的架构以突破衍射极限