基于FPGA的混合精度神经网络处理器的设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:johnathan126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络(CNN)作为深度神经网络的子类得到了广泛的普及。CNN彻底改变了诸如自然语言处理,图像分类和语音识别等任务的执行。通常,CNN可以通过CPU、GPU、ASIC、FPGA等平台实现。在人工智能物联网(AIOT)设备方面的应用,对于便携性和低功耗有更高的要求,另外需要针对不同精度类型的算法模型设计不同的神经网络处理器。而论文提出了一种基于FPGA平台设计的混合精度神经网络处理器,支持不同精度需求场景下全精度神经网络模型和二值神经网络模型的切换,并满足了便携性和低功耗的需求。论文先介绍了神经网络处理器的研究背景与意义,再对该领域国内外研究历史及现状进行简要概述。随后介绍了神经网络相关的基础知识和可用于搭载神经网络的FPGA实现平台,并描述了硬件实现基本参考架构。然后,论文详细阐述了实现在本处理器上的全精度神经网络算法模型的基本架构。同时,还对二值权重神经网络算法的原理进行了介绍,为二值神经网络的训练和实现提供了理论支持。为了适用于不同精度神经网络算法模型,论文根据提出的算法模型结构设计混合精度神经网络处理器。论文提出的处理器采用了按行存储和基于“簇”读取特征图的策略,提高了数据复用性和读取效率。同时针对全精度和二值神经网络模型的两套不同权重,提出了混合精度权重存储方案,减少了权重读取时的地址访问。论文的处理器设计了两种工作模式,可利用同一处理器实现不同精度神经网络模型的切换。另外,论文提出的处理器还可以根据指令配置不同的神经网络模型结构以适用于不同应用场景。为了分析和验证设计的处理器,论文先在不同的数据集下分别训练了拥有较好准确率的全精度神经网络模型和二值神经网络模型,并给出两种精度模型的准确率以及硬件资源占用分析。再利用System Verilog语言编写脚本来模拟硬件的数据处理,测试了硬件实现的识别准确率。并且在Vivado设计套件上对处理器进行了功能仿真,与模拟硬件对比输出结果一致,验证了硬件实现的正确性。接下来在ZYNQ-7045开发板上以100MHz的时钟频率对本处理器进行了硬件实现,全精度模式下运行功耗实测为8.3W,二值模式下运行功耗实测为7.1W。最后,对论文的研究工作进行总结和展望,确定了后续工作提高和完善的方向。
其他文献
信号调制作为当下通信过程中必不可少的一环,一直对整个通信系统整体性能以及传输能力产生着极大的影响,而随着现代无线通信技术的发展,调制信号的种类和方式也在不断变多,通信环境中调制信号的区分也变得愈发困难。因而调制识别这种对未知调制信号进行调制种类判断和分类的方法,在电子侦察、电子对抗、频谱检测等多种非合作通信场景下的接收机设计中都有着极大的研究意义,影响着后续通信信号的解调以及通信参数提取的实际性能
近年来,自主移动机器人发展迅速,影响着社会生产生活的各方各面并在其中发挥着愈发重要的作用。基于视觉的同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是自主移动机器人的核心技术,其中的闭环检测(Loop Closure Detection,LCD)环节通过辨别移动机器人是否已访问过当前位置辅助构建全局一致的地图。然而,在实际应用中,光照、
随着智能电子产品中的印刷电路板(Printed Circuit Board,PCB)越来越趋向于小型化,且板上元件密度也越来越大,从而导致PCB布线工作也变得越来越复杂。但是当前电子设计自动化(Electronic Design Automation,EDA)工具内置的自动布线功能布线速度慢且布通率低,当前PCB布线工作仍然主要依赖于人工,从而使得在工业PCB设计过程中仍需要消耗大量的人力资源。因
卷积神经网络近年来成为了解决各类视觉任务的主流选择,包括图像分类,检测跟踪,动作及意图识别等领域。卷积神经网络由一系列卷积层层堆叠构成,而传统卷积层存在着参数量和计算量大的问题,同时网络深度和宽度的提升进一步加剧参数量和计算量的问题,使得这些网络模型往往无法顺利进行移动端部署。因此设计高效的卷积神经网络具有重大的学术及工程价值。针对以上问题,本文提出了一种高效的分组卷积单元,并提出了一种基于深度可
随着工业物联网中信息量与应用计算复杂度的增加,其中资源受限的设备越来越依赖计算卸载技术。计算卸载技术可以将物联网中轻量级设备所产生的计算需求和数据转移到具有充足计算资源的节点上。一方面可以节约轻量级设备宝贵的计算、存储以及能量资源,另一方面还可以满足应用较高的时延需求。目前计算卸载可分为两种模式,源驱动和目标驱动的计算卸载模式。当前大多数传统计算卸载决策算法都以源驱动计算卸载模式为研究对象,而在新
光纤随机激光器作为随机激光器的重要分支,相关研究人员已经揭示了其具有大范围波长可调性、窄线宽、高功率输出等特性。正是由于这些独特的优势,其已经在光纤传感、光成像、光通信等领域得到重要的应用。特别是在长距离光纤传感系统中,基于光纤随机激光的传感系统不仅具有传统光纤点式传感系统结构简单、抗电磁干扰、灵敏度高的特点,而且具有响应时间短、传感器可复用、精度不受光源波长漂移、链路温度变化影响等优势,非常适用
无线传感器网络(Wireless Sensor Network,WSN)中的移动目标跟踪算法需要保证较高的跟踪精度又不过多地消耗能量。高效的跟踪效果需要调度更多的移动传感器,然而调度移动传感器会产生大量的能耗。如何平衡跟踪精度与网络消耗之间的矛盾并设计合理的节点协同调度算法是WSN中面向目标跟踪的关键问题。本文分析了在本领域的研究背景以及研究现状,进而提出了面向移动目标跟踪的节点协同调度移动跟踪算
长期以来,大规模无线传感器网络(WSN)的能量问题都一直受到研究者的普遍关注。由于大规模分层网络架构下,无线传感器网络的各个节点通常都抛洒部署到很恶劣的环境下,无法更换电池,因此节能问题成为了关键。本文从节点能耗、能量均匀、业务服务质量和路由问题的角度出发,对目标的最大覆盖范围、Q覆盖集的问题、汇聚节点休眠的负载均衡和节能的路由算法进行了研究。在汇聚节点和传感器节点两个层面上,共同休眠带来能耗问题
为了缓解单个自动驾驶车辆的计算负担,移动边缘计算(Mobile Edge Comput-ing,MEC)作为一种可靠的计算模式被应用于车联网中,允许计算资源不足的车辆将计算量大且时延敏感的任务卸载到边缘节点的服务器上进行计算。在此背景下,为了减少任务执行的时延并提高系统资源利用率,结合移动边缘计算技术,本文研究了基于人工智能的车联网环境中的协同计算和资源分配策略。主要在两个场景下进行研究,分别是车
近年来,随着智能交通概念的普及,车牌检测与识别应用已经遍及我们生活的方方面面,包括小区的停车场收费系统、路口的违章监控系统、交警的移动手持警务系统等。伴随着深度学习的出现,基于神经网络的车牌检测与识别算法在识别准确率上得到了进一步的提升。与此同时,复杂多变的应用场景对算法的准确率提出了更高的要求,如何使系统稳定工作在更加复杂的环境成为了近年研究的重点。本文首先对国内外的相关工作进行了调研,从基于传