基于FPGA的神经网络异构加速方案设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yongsheng0550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术日益成熟,卷积神经网络(Convolutional Neural Network)作为最热门的机器学习算法之一,其应用范围逐步扩大,涉及生活中的方方面面,例如视频监控领域、无人驾驶和医疗器械等。在实际应用中,需要通过硬件平台加速神经网络的计算过程,建立高实时性、低功耗的可操作系统。现场可编程逻辑门阵列FPGA(Field Programmable Gate Array)作为一种包含丰富资源的可更新器件,具有低功耗、高性能特点,被广泛应用于加速卷积神经网络的硬件系统中。而采用ARM(Advanced RISC Machine)+FPGA的异构计算方式,不仅能够充分发挥FPGA并行计算的高性能和低功耗特性,还可以在较短的周期内完成硬件电路开发。由于目前FPGA异构计算方式大多应用于专用神经网络加速,关于通用神经网络的研究还比较匮乏。本文提出了一种采用ARM+FPGA异构的设计方法,通过PYNQ(Python Productivity for Zynq)平台设计出了一种能实现分类和目标检测任务的通用加速器。本文从通用加速器硬件电路设计的角度出发,着重分析了深层VGG16分类网络算法和YOLOv3-tiny目标检测网络算法的结构,剖析了卷积层、池化层和全连接层等通用性网络结构的计算过程,并深入研究了YOLO网络专用的路由(Route)层、上采样层和解码过程。最后实现了能完成分类和目标检测任务的通用神经网络加速器。本文的主要内容有:(1)分析了异构计算实现加速器的过程,采用了AXI(Advanced Extensible Interface)总线实现了PS(Process System)端和PL(Programmable Logic)端的数据搬运。并提出了一种通过硬件电路接口实现ARM与存储器交互的方法,使ARM端可以直接处理外部存储器中的数据,以提高硬件加速器的通用性。通过PYNQ平台,采用以太网通信的手段实现PC(Personal Computer)机与FPGA加速器的通信,完成整个通用卷积神经网络的加速应用系统的搭建。(2)对数据进行预处理以实现DSP(Digital Signal Process)单元的复用。通过数据排序以适应硬件FPGA乘加器的矩阵运算,进行BN融合以加速推理,并提出一种改进的对称量化方式将VGG16和YOLOv3-tiny的32位浮点型参数量化为16bit定点数,并在量化过程中针对YOLOv3-tiny的Route层采取校准方法,方便FPGA的部署。(3)采用一种引入校准坐标的方式实现卷积运算和池化运算的并行加速,完成通用的卷积模块和池化模块硬件电路搭建。采取宽维度和输出通道维度联合切片的方式,提高了FPGA片上缓存的利用率,减少了系统访存次数。基于维度变换的方式对并行矩阵运算进行改进,以适应切片方式并提高DSP复用的效率。针对VGG16网络和YOLOv3-tiny网络的差异,添加辅助运算完成上采样层和Route层的设计,完成能部署实现不同任务的通用卷积神经网络加速系统。基于ZCU-102平台进过测试,在频率150MHz的情况下,VGG16网络的加速性能为180.40GOPS,YOLOv3-tiny的加速性能为119.10GOPS,卷积层的加速性能峰值高达305.5GOPS,整个FPGA加速器的功耗为5.845w。与国内外相关领域加速器进行比较后,该设计性能优异。与CPU相比对神经网络的推理过程加速显著,与GPU相比能耗较低。结果表明本设计通过异构计算方法,在保证计算性能和低功耗的情况下,能够有效地实现分类和目标检测任务,突出了本设计的优越性。
其他文献
对泵站进行流量调节,促进水资源合理利用,对我国绿色可持续发展具有重要意义。为保障泵站的节能高效运行,通过理论模型与实际工程相结合的方式,对不同流量调节措施泵站的节能效果进行对比研究。结果表明,流量调节主要与泵机阀门的大小、泵机电机转速以及并联泵机的数量有关,并且均呈正比关系。在扬程-流量特征曲线模型中,与控制泵机的阀门大小进行流量调节相比,控制泵机电机的转速、实现泵机转速自动变频进行流量调节是泵站
期刊
目的 了解山东省某公安院校大学生心理健康素养现状及影响因素,为提升其心理健康素养提供参考依据。方法 2021年10—11月采用整群抽样法,采用自行设计的一般人口学调查表和青少年心理健康素养评定量表对山东省某公安院校388名大学生进行问卷调查,并对数据进行分析。结果 山东省某公安院校388名大学生心理健康素养得分为(74.81±10.92)分。年级、母亲教育程度、学习成绩、人际关系和心理活动参与情况
期刊
金刚石超宽禁带半导体具有高击穿场强、高热导率、较高的载流子迁移率及饱和漂移速度等优异特性,是制备下一代高温、高压、高频、大功率电子器件的理想材料之一。但是金刚石的体掺杂室温下难以激活,目前氢终端金刚石表面p型电导是金刚石主要电导形式。由于氢终端表面导电性能不稳定,易受高温工艺影响,及亚微米小尺寸器件制备困难等问题的限制,高频金刚石场效应晶体管在制备及应用方面还存在较大的困难,成为阻碍金刚石器件发展
学位
近些年来,随着激光点云技术的不断发展,计算机开始用一种新的数据形式来认识并理解世界。随着深度学习在2D图像处理领域取得的巨大成就,研究人员开始将深度学习方法应用到点云数据处理领域,但是由于点云数据的无序性、稀疏性等原因,难以直接利用深度学习来处理点云数据,直到Point Net和Point Net++的问世,深度学习开始在点云数据处理中被广泛应用,但是目前的方法大多通过手动邻域选择的方式来进行局部
学位
随着器件尺寸不断缩小、集成密度不断增加,三维集成电路(Three-Dimensional Integrated Circuit,3D IC)的优势逐渐明显,但是三维集成电路的高度集成和紧凑设计导致其热问题愈发严峻,严重的热问题将会引起电路的失效,影响芯片的正常工作,因此急需各种方案来缓解三维集成系统中的热问题。能够传输电源信号的电源分配网络(Power Distribution Network,P
学位
随着制程节点的缩小和电路复杂性的增加,在集成电路设计过程中,逻辑等价性检查在确保功能正确性方面起着重要作用。在集成电路设计周期中,无论是前端还设计是后端实现,验证是其中必不可少的环节。除此之外,越来越多的业内人士也指出了验证测试已经成为了集成电路设计发展周期中的一个亟需解决问题。在实际工程中,当面对规模更大的集成电路时,一般需要进行分割处理从而使得后续对电路的操作更方便,这时就需要验证分割前后电路
学位
随着集成电路领域的不断发展和人们生活品质的不断提高,人们对于音频质量的要求也越来越高,而实际生活中,由于音频输入信号在传播过程中会因为距离、障碍物以及其他环境的影响,导致输入到模数转换器(Analog to Digital Converter,即ADC)的数据忽大忽小,若音频输入超过ADC的动态范围则会产生极大的误差,对后续数据处理产生极大的影响,使得用户的收听体验受到影响,由此需要对ADC的输入
学位
随着卷积神经网络的数量和规模的不断增加,不同领域场景中使用的网络模型参数差异较大,加速器产品快速迭代和变化趋势明显。传统芯片开发体系的设计生产周期长、投入和限制多,主流设计语言Verilog与VHDL端口定义繁琐、编码效率低、参数化能力弱、修改麻烦等问题越发凸显,难以持续满足市场需求,为此集成电路领域需要有敏捷的开发方式。本文根据HDL语言特性以及敏捷开发特点,提出了基于Spinal HDL的CN
学位
随着微电子技术的不断发展,集成电路工艺水平的不断提高,芯片设计的难度和复杂度也在不断提升,设计的验证工作耗时逐渐超过设计本身。因此,芯片验证方法学的研究在学术界与工业界获得了更为广泛的关注,选择一种合适的芯片验证方法对于芯片团队开发效率的提升有着重要的意义。现有对于DUT的调试,只能通过插入动态探针和静态探针的形式以获取内部信号的信息。此方法需要占用额外的配件资源,并且灵活性不高。特别是对于静态探
学位
功率VDMOSFET,以开关速度快、高输入阻抗、低驱动功率等优点而被广泛应用于开关电源、汽车电子、整流器等应用中,在电子电力系统中扮演着重要角色。而现阶段在高压VDMOS领域,国外已经有规模化的产线,而我国则处于起步阶段,该方面的需求主要依靠进口,存在采购周期长,价格高,且随时被禁运的风险。因此,使得能够自主研制出基于国内工艺产线,设计并生产的高压功率VDMOS器件对我国而言具有重要意义。本文的目
学位