二值神经网络硬件加速器设计与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:VANDY115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,卷积神经网络(Convolutional Neural Networks,CNN)广泛应用于计算机视觉、语音识别和机器人技术等的人工智能(Artificial Intelligence,AI)应用中。尽管在大多数AI任务上CNN可以保证极高的准确性,但这往往是以高计算复杂性为代价的。因此,在保证一定准确性或不增加硬件成本的情况下,对CNN进行有效处理以提高能源效率和吞吐量的技术对于CNN在AI中的广泛部署至关重要。为此,在算法领域中,二值神经网络(Binary Nerual Network,BNN)由于极大降低数据量和计算成本,成为CNN算法领域新的研究方向;而在硬件领域中,现场可编程门阵列(Field-Programmable Gate Array,FPGA)凭借其高能源效率和可定制的特点,具有极大的潜力。但是,BNN专用硬件加速器研究还不够深入,在输入卷积层、复合层和边缘“0”数据计算方面还存在大量优化空间。针对这上述方面,本文提出一种基于FPGA的高能效低成本BNN硬件加速器方案,主要工作包括:(一)提出一种基于量化和阈值优化的完全二值化预处理方法。针对BNN第一层输入卷积层计算特殊性问题,本文在BNN推理前,将待识别图像进行预处理,将输入图像数据的位宽量化为1bit。同时,为了降低量化对BNN识别精度的影响,在训练时进行阈值优化,选择最优阈值作为推理过程中使用的阈值。该方案将输入图像二值化,使第一层输入卷积层与其他卷积层的计算形式一致,降低传统方案的功耗和硬件成本。(二)提出一种基于复合偏置和6:2压缩的组合计算方案。通过分析BNN中卷积层、批量标准化层和激活函数层计算的连续性,对3个层的计算公式进行组合及变化,结合FPGA硬件资源的特点,提出一套高效低成本的BNN硬件计算方案。本文设计基于6:2压缩的乘累加计算单元,同等计算量情况下,减少60%的LUT硬件资源消耗;同时对卷积层、批量标准化层和激活函数层进行组合和优化,设计复合偏置计算单元,相较于传统方案,所提方法最多可减少80%数据存储量、500%计算周期和600%的硬件资源消耗。(三)提出一种精度无损的低功耗边缘跳过方法。针对BNN硬件无法识别算法中边缘“0”数据的而导致的额外计算代价等问题,本文提出一种使用跳过边缘“0”数据计算的方式,无需存储和计算边缘数据,同时可以达到与算法中包含边缘“0”数据计算相同的结果,且实现硬件与算法识别准确度一致。实验表明,该方案可降低20%的数据存储量和30%的计算量,同时相较于算法精度损失为0。
其他文献
随着近年来国内城市化进程的不断加速,城市规模不断增大,城市下一步规划出现了不同难题。在此背景下,结合虚拟现实技术和地理信息技术的虚拟城市场景生成技术成为研究热点。研究如何快速生成城区场景内不同对象,进而完成虚拟场景模型布局,既能辅助城市规划人员做出决策,还能为交通流可视化、人群疏散仿真、游戏娱乐等各种不同领域的研究提供帮助,因此这一课题具有较高应用价值和实际意义。本文调研分析了虚拟城市场景构建领域
传统民居通风、采光的功能主要依赖于庭院这一典型的建筑腔体空间,对太阳辐射的应对是传统民居庭院腔体空间重要的生态机制之一。本研究以太阳辐射为研究切入点,提出庭院“空间对角线”的概念,在方向与角度参变量所构建的三维空间系统框架下,重新思考传统民居庭院腔体空间形制的生态性能。在调研实测和数据统计的基础上建立皖南地区传统民居庭院的研究模型,以高温天和低温天太阳辐射接收量差值的相对大小作为太阳辐射适应性的评
量子纠错在量子通信的发展中具有重要的地位。常循环码作为经典纠错码中的一部分,具有重要的理论意义。量子纠错码也因其在量子通信中的应用吸引了一些学者的关注。本文介绍了利用环上常循环码构造量子纠错码的情况,主要分为以下两部分:(1)利用有限非链环R=Fq+uF+vF+uvF上常循环码构造量子码,其中u2=u,v2=v,uv=vu且q=pm,p≠3为奇素数,m为正整数。对此环的性质结构进行介绍,并引入了一
随着汽车产销增速的减缓,汽车行业面临的考验空前增大,这就对车身零部件(内、外覆盖件)等金属冲压零件质量提出了更高的要求,本课题以汽车发动机罩外板为研究对象,按照汽车覆盖件外板的成形质量、尺寸精度,强度等要求,借助软件对其进行数值模拟分析。通过对压料面、冲压方向、工艺补充面、坯料尺寸、拉深槛布置等工艺的分析,设计正交实验对其工艺参数的优化,经模拟分析计算结果不断优化工艺造型设计以及冲压工艺参数,理论
随着量子通信的快速发展,量子纠错问题成为新的研究热点.在对量子纠错码的研究过程中,人们发现,如果编码者和译码者提前共享纠缠态c,那么可以利用任意的经典码构造纠缠辅助量子码.换言之,这使得任意的经典码得以量子化.有限域上的常循环码因其易编易译的代数性质被广泛地应用于代数编码中.因而,本文主要以有限域上的循环码和负循环码为码源,分别构造了八类具有灵活参数和一类具有确定纠缠态数量的纠缠辅助量子码.首先,
为了提升汽车的安全性,达到车身轻量化的发展需求,汽车车身应用了越来越多的高强度钢板。由于高强板的使用,减少了整车零件的使用数量,车身的重量得到减轻,燃油的效率得到提升,汽车的寿命得到延长,汽车的碰撞性能得到提高,达到了车身轻量化和保护环境的目的。但是在这些结构件的冲压成形工艺中,纵梁类零件由于造型较复杂,型面高度差较大,零件材料屈服强度大等原因,在冲压成形中问题突出。其中主要的问题就是开裂、回弹、
本文以某卡车侧围外板为实例,对其进行了有限元模拟仿真分析以及工艺参数优化,解决了数值模拟结果中零件开裂及成形不充分等问题,并以此指导模具开发,生产出合格的冲压件。首先对零件数模进行评审。针对卡车侧围外板自身特点,以及在车身中的作用,充分分析零件特征,识别关键部位,预估零件缺陷,并结合以往车型类似件的开发经验,确定卡车侧围外板冲压工艺路线。其次,探讨了拉延模面设计基本原则,分析卡车侧围拉延模设计的整
在本文中,我们对环上元素的Mary逆与加权广义逆进行了研究,主要结果如下:第一部分主要研究了环中元素的Mary逆及其polar性。在环中定义了一类相对于一个元素的polar元,即对于环中任意两元素a,d,如果存在某个元素p满足p2=p∈comm(da),pd=d以及da+1-p是可逆的,则称元素a是相对于d polar的。特殊地,单polar元,polar元,well-supported元都是相对
有限域上的BCH码是构造参数较好的量子码的码源,利用分圆陪集理论,本文构造了有限域上两类BCH码,并且根据厄密特对偶包含构造的理论,本文同时也构造出两类性能较好的量子码。具体结果如下:1.利用经典BCH码构造量子BCH码。当n=r(q~2-1),m=ordn(q~2)=4时,分析了q~2mod n的分圆陪集中元素的分布特点以及选定特定集合的互不相交的条件,通过BCH码的构造理论,构造出一类新码长的
本文主要研究了两个问题,一是最大平均度量下的Bowen维数熵与测度下局部熵的关系,二是amenable群作用下测度r-熵的Katok熵公式。具体安排如下:在第一章绪论中,我们介绍了动力系统产生的时代背景与现阶段动力系统主要的分类,简要的介绍了动力系统中熵理论的发展脉络,还有本文研究背景:用平均度量研究熵理论与amenable群作用下的动力系统。在第二章中,我们介绍了本文涉及的动力系统、熵理论、am