基于FPGA的SSD算法加速设计与实现

来源 :中国运载火箭技术研究院 | 被引量 : 2次 | 上传用户:tigernone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能的不断提升,以及学术界对机器学习领域研究的逐渐深入,卷积神经网络(convolutional neural network,CNN)成为了近年来最为热门的机器学习算法之一,在机器视觉、视频监控、图像搜索、模式识别等领域得到了广泛的应用。目前的卷积神经网络算法主要通过GPU平台进行实现,但由于GPU存在能耗过高的问题,难以应用于嵌入式系统中。基于ASIC的卷积神经网络加速器开发周期长、成本投入巨大且缺乏灵活性。现有的嵌入式系统大多基于ARM、FPGA等单一平台。使用ARM可以方便快捷的搭建嵌入式系统,由于卷积神经网络中特定的计算方法,单独在通用处理器上运行效率较低,难以达到满意的性能。FPGA具有强大的可编程性、低延迟设计、低功耗特性,基于FPGA的卷积神经网络加速器逐渐引起人们的重视,成为现如今深度学习算法硬件实现研究的一个重要领域。但是在FPGA中部署卷积神经网络算法仍然存在很多挑战,随着算法理论的发展与完善,近年来提出的新算法网络层数逐渐加深,网络层操作复杂化、多样化,通过传统的HDL语言编写FPGA存在开发难度高、开发周期长、可移植性差的问题。本文采用了ARM+FPGA的异构设计,对基于卷积神经网络的SSD算法进行软硬件协同开发。SSD算法卷积部分涉及乘加操作计算总量约为68.22G次,权重因子数量约为27.44M个,属于计算密集、存储密集型算法。在算法层面上,对SSD的部分网络层进行硬件适应性优化,并使用PASCAL VOC 2007、VOC 2012数据集对优化后的算法进行训练,重新训练后的算法与原SSD算法的查准率几乎一致。部署过程中,对算法进行合理的软硬件分区,将计算密集、耗时占比高的部分进行硬件加速。分析了卷积神经网络算法的共有特性,在PL端设计了加速器通用架构,采用对卷积层进行维度拆分和分区数据流管理的方式,使加速器可实现任意尺寸的卷积计算,并使用高层次综合(high-level synthesis,HLS)的开发方式对通用卷积核各层级进行了并行化设计,PL端加速器可高效完成卷积、池化、激活等网络层操作。在PS端对算法的特异性模块进行编写,通过调用PL端加速器的方式实现算法通用网络层堆叠,使用SDSoC平台综合设计完成了ARM与FPGA间高速的信息交互,实现了SSD算法网络的快速搭建。最终在Xilinx ZCU102开发板上实现了优化后的SSD全网络,在200MHz的频率下,数据类型为单精度浮点时,单帧检测速度为1.57s,本文提出的软硬件协同设计方案与基于ARM的软件设计方案相比,可实现110倍的加速比,并节约101倍的功耗。若对算法进行定点量化及剪枝压缩优化,可在嵌入式领域实现SSD算法的视频流实时处理。
其他文献
[目的 /意义]运用共享经济理论为国内当前图书馆信息资源共享模式提供优化思路。[方法 /过程]总结图书馆信息资源共享模式从文献资源、数字资源在移动环境中的演进规律,基于
随着高等教育大众化、教育手段信息化、教育模式终身化的到来,我国高等教育进入新的发展期,高校间的竞争越来越激烈。要保持区域乃至全国范围内的优势,各大高校需要实现全员
随着旅游业的发展和工作等需求,人们生活的质量逐步提高,不仅需要一个舒适的环境,而且对各项服务要求都很高,酒店行业在国民经济的地位日益加剧。要想在酒店行业中立于不败之
随着制造业对生产自动化程度的要求越来越高,机器人代替人工进行全自动化作业成为一种趋势。在企业生产过程中,矩形物体较为常见,例如电子工厂制造的矩形PCB板和液晶屏幕。由于生产物料一般是放置在矩形纸盒中,因此堆叠矩形纸盒也较为常见。本课题主要研究平面上和三维空间中多个矩形物体识别和抓取方法,旨在提高堆叠物料的搬运效率。基于对系统的需求分析,本文设计了由RGB-D相机、相机光源、上位机、机器人控制器、S
企业行为依据经营活动是否合乎道德标尺可区分为败德行为和道德行为两种类型。败德行为是属于行为主体在经过经济、心理及战略层面等三维成本和收益核算之后所作出的理性选择
目的 探讨小青龙汤联合西药治疗老年慢性阻塞性肺疾病发作期的临床疗效及对免疫功能的调节作用。方法 152例老年慢性阻塞性肺疾病发作期患者随机分为两组,观察组76例采用小青
LBD基因家族是植物所特有的一类新基因,编码一类包含保守LOB(lateral organboundaries)结构域的转录因子,在植物侧生器官的发育和形成过程中发挥重要功能。由于该家族中第一个
上海世博会围绕“城市让生活更美好”的主题,对城市发展理念和实践予以研究,提出了“紧凑城市”、“节能城市”、“低碳城市”、“宜居城市”、“生态城市”、“田园城市”等
本论文主要是对太赫兹表面等离子体波(THz SPPs)的应用做了理论、仿真以及实验研究。太赫兹表面等离子体波集太赫兹(THz)与表面等离子体波(SPPs)两者优点于一身,在通讯、检测
随着电子设备,电动汽车和大型储能系统的快速发展,对储能材料的需求越来越高,锂离子电池在这些领域中的广泛应用受到锂资源分布不均的严重制约。考虑到元素周期表中锂,钠和钾