基于FPGA的低位宽量化卷积神经网络加速器的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:leezhenghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉、自然语言处理、语音识别等诸多领域取得了巨大的成功。然而,随着CNN性能的提高,其模型结构日益复杂,计算规模也越来越大,这成为了其在移动平台上部署的瓶颈。近几年的研究表明,CNN模型中存在着大量冗余,即使将其中的计算数据量化到较低的位宽也能保持较高的精度。而对于这种低位宽数据的计算,现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)有着巨大的优势,另外,使用FPGA还可以设计出高度契合CNN计算特点的并行计算结构。基于此,本文采用“算法-硬件协同设计”思想,协同考虑CNN量化方法与FPGA硬件加速器设计,旨在探究出一种工程上可行的、面向移动平台的卷积神经网络加速部署方案。本文主要的研究内容及创新点如下:(1)为了优化已有的CNN算法使其更符合FPGA的计算特点,降低计算所需的代价,提出了一种CNN低位宽量化方法。该方法包含可学习参数的软截断量化方法来实现权值量化,并用可学习截断参数方法进行激活量化,通过反向传播自动优化量化参数最小化精度损失。完成权值和激活量化后将批正则化层与卷积层融合,并将融合后的偏置和量化间隔进行进一步整型化。该方法能够将卷积神经网络中的权值参数量化到4bit,激活值量化到3bit,且实现所有参数全整型化而保持网络精度趋于无损。(2)针对低位宽量化的CNN模型设计了一套可配置的高性能、低功耗硬件加速方案。为提高量化后CNN模型向前推理时的计算效率,设计了一种使用FPGA中单个DSP单元实现6个低位宽乘法的并行计算的方法。在此基础上,针对(1)提出的量化方法定制了专用的计算加速单元。而后针对类VGG结构卷积神经网络的特点设计了一种流水线型的架构,将网络模型中的所有的参数都置于片上,并将CNN中的所有层都置于片上采用流水线的形式并行计算。实验结果表明,该加速方案能实现568.2 GOPs的实际吞吐量,相对于ARM Cortex-A53CPU实现了761.4倍加速。其性能功率比是因特尔I7 9700K CPU的135.7倍,是GTX 1080 Ti GPU的27.1倍。(3)设计了适用于无人机使用的单目标检测系统。为无人机目标检测场景设计了单一小目标检测算法,并应用(1)和(2)的优化加速方案,对算法进行优化和构建加速器。在此基础上构建了适于无人机使用的单目标检测系统。实验表明,该目标检测系统在DAC-SDC比赛数据集上实现了285FPS的目标检测速率,精度IoU为0.679,功耗仅5.1W。
其他文献
CO是空气污染物的主要成分之一,CO为有毒有害气体,无色无味,易与人体的血红蛋白结合使血液供氧不足导致窒息死亡。与化学反应相比,将CO直接氧化成CO2是最为简单有效的方法。对于CO的处理方法通常会采用热催化的方法,在高温下高效地将CO转变为CO2。然而热催化通常需要在高温下进行,能量消耗大,并且对于贵金属负载型催化剂,在高温下容易造成贵金属的烧结,使催化活性下降。因此寻找一种催化效率高、稳定性好、
学位
书面记载表明藏、尼两地自吐蕃时期便已互通往来,且多个历史时期以来从未间断。但10-13世纪前后两地交往的记载十分零散且存在空白,同时,对该时期两地建筑的关联性研究也未能深入而始终停留于形式比较层面。故本研究从藏、尼两地该时期的内物质遗存入手,以中尼古道沿线人员往来较为频繁、建筑遗存更为丰富的后藏吉隆地区和尼泊尔加德满都谷地两地10-13世纪前后的建筑为研究对象,以檐口、屋面、门窗等在外观形式上具有
学位
智能手机和网络的普及给社会生活带来了巨大的转变,同时也影响着个人兴趣爱好的变化,在如今愈来愈快节奏的生活状态下,许多人在网络上消耗大量的业余时间,包括各种社交APP(微信、微博等)、短视频软件(如抖音、快手等)以及优酷等播放平台的使用等。这给诸如当下用户量较大的今日头条等版面较全的软件带来了巨大的机遇与挑战,诸如如何给自己的平台带来巨大的流量,平台上的用户如何提高个人账户的关注度以增加流量等都是很
学位
论文研究一种重视生活形式的设计方法,主要探讨如何通过结构体清晰地呈现生活形式这一方法。研究受建筑师、建筑教育家海杜克启发,指出海杜克在生活形式问题与结构体作为呈现生活形式的方法两个方面均有深入思考。论文总结了他的思考和方法,并以海杜克研究为基础,通过分析提炼当代建筑设计案例,提出了一些生活形式结合结构体的设计方法。首先,论文提取了海杜克切入生活形式的三个角度,分别是家居性问题、关系问题、特征问题,
学位
经营规模小、业务范围单一、资产少且融资难等特点,决定了微型企业在市场中扮演着补缺者的角色。而经营灵活、适应性强等特点,又使得微型企业能够根据市场竞争环境的变化,进入新的业务领域或打破行业现有的市场边界,开辟竞争相对较弱的利基市场。市场缝隙的存在,为微型企业在利基市场中生存提供了可能性。S公司作为一家销售运动类悠悠球产品的微型企业,正处于开辟缝隙市场的过程中,短期内无大量资金融入。基于当前企业生存发
学位
由于全球的能源危机与国际地缘政治的影响,海洋的资源和空间已成为各国未来战略的重点。超大型浮式结构可以作为海上综合平台,为海洋资源开采以及空间利用提供基础。因此,对于浮式结构的设计以及在海洋多种荷载作用下的动力响应分析是浮式结构研究的重点内容。首先,本文对浮式结构的发展历程、流固耦合问题、桩土相互作用、阻尼器和波浪荷载的发展研究过程进行了较详细的介绍。对于浮式结构的单浮体和上部框架进行详细的设计,并
学位
随着信息技术和工业检测的迅速发展,对物体的三维感知和深度测量成为关注重点。目前3C产业的元件大部分是镜面高反射材质以及具有类镜面反射特点的透明材料物体,对于一些表面镀金属薄膜的元件,传统的三维检测方法是在物体表面喷涂材料减少高反光影响,但是降低了检测精度;用机械探针接触式扫描物体表面,很容易损伤待测物体。基于结构光的三维成像技术是一种无损的、高精度的面型检测方法,其中基于条纹反射的相位测量偏折术(
学位
近年来,作为模拟生物神经网络(Biological Neural Network,BNN)的一种数学模型,人工神经网络(Artificial Neural Network,ANN)成为人工智能领域的研究热点。BNN的拓扑结构介于规则网络和随机网络之间并呈现小世界属性,已有研究证明将小世界属性和ANN结合所构造的小世界神经网络(Small World Neural Network,SWNN)能够更好
学位
在基于性能的抗震设计中,建筑结构的变形能力是衡量其抗震性能和损伤程度的重要指标。然而,震后的残余变形所带来的修复问题会造成巨大的经济损失。梁柱节点作为钢结构中的关键构件和薄弱环节,其力学性能的优劣对建筑结构的整体抗震性能影响很大。为此,本文设计了一种具有自复位能力的钢框架节点,该节点的梁柱翼缘通过U形阻尼器栓接,柱翼缘与梁腹板通过两块带条形孔的剪切板栓接,沿梁长布置高强预应力钢绞线。通过对钢绞线施
学位
随着社会的发展进步,互联网和IT信息技术的发展方兴未艾,数字图像、视频媒体数据急剧增长,利用计算机视觉技术处理分析图像、视频的需求日益增长。目标检测是许多计算机视觉技术的前提和基础,主要用来对感兴趣目标进行图像识别和目标定位,受到越来越广泛的重视。目标检测除了要满足必要的检测精度外,对检测速度的实时性要求也越来越高。随着神经网络技术的发展,基于深度学习的目标检测取得了较好的检测效果,但仍存在模型复
学位