面向FPGA平台的YOLOv3模型轻量化技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qiuxue6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网和深度学习的兴起,以卷积神经网络为主流的深度学习技术在边缘计算场景得到了广泛应用,然而性能增速逐渐放缓的算力平台难以适应卷积神经网络日益增长的算力需求。因此,如何利用边缘设备的有限算力进行卷积神经网络的高效推理成为高性能计算领域的前沿问题。针对上述问题,本文从硬件加速-模型轻量化协同优化的角度出发,在设计硬件加速时兼顾模型结构优化,在模型轻量化时兼顾硬件加速的计算特点。围绕上述研究动机,本文基于FPGA可定制计算的特点,以目前应用较广的YOLOv3模型为目标模型,开展面向FPGA平台的卷积神经网络模型轻量化技术研究。具体研究内容如下:(1)YOLOv3模型结构和FPGA平台计算特征分析。对YOLOv3模型结构和FPGA平台计算特征进行分析是硬件加速-模型轻量化协同优化的基础,通过分析确立了硬件加速和模型轻量化的研究方案。(2)基于FPGA单计算引擎的高效可配置INT8加速器设计。针对FPGA难以直接部署大尺度卷积神经网络的问题,本文面向YOLOv3计算密集型算子,设计了一种基于FPGA单计算引擎的高效可配置INT8加速器,达到了高吞吐、低延迟和低能耗的设计目标。(3)面向定制加速器的模型轻量化方法研究。针对YOLOv3模型复杂度高且与加速器适配度低的问题,本文面向YOLOv3模型中的密集型算子,基于滤波器剪枝、层剪枝和INT8数据量化设计了三种可组合的模型轻量化方案,在降低算法复杂度的同时,提高了模型结构对加速器的适配度。硬件加速-模型轻量化协同优化实验结果表明:本文提出的高性能计算方案在精度损失为6.83%的前提下,实现了60.06%的计算压缩率,在本文所设计的加速器上卷积推理过程耗时仅224.63ms,同时参数量压缩率达75.24%,极大地降低了模型对内存的需求及FPGA数据传输的能量消耗。FPGA加速器在功率为3.713W的前提下,计算能力达到62.82GOPS,能效比达到16.92GOPS/W,能量利用效率显著提高。综上所述,本文的研究工作基于硬件加速-模型轻量化协同优化原则为边缘计算面临性能瓶颈的目标检测应用提出了高性能优化方案。
其他文献
高光谱图像分类是高光谱遥感领域的重要研究方向之一。目前,高光谱图像分类领域有两大挑战。一方面,传统方法中人工设计的空谱特征通常针对特定场景,需要经验知识,表达能力受限,影响其广泛应用。另一方面,高光谱图像的分类主要集中于监督学习方法。以支持向量机、稀疏表示、逻辑回归等为代表的经典分类方法取得了良好的分类效果。但是监督学习方法以充足且准确的监督信息(标签)为前提,而高光谱图像人工获取监督信息费时费力
学位
随着通信技术的持续发展,无线信道的衰落特性对信息的高效准确传输造成了越来越严重的影响。与多径信道相关的频域选择性衰落,以及多普勒频偏所导致的信道时域变化是恶化系统性能的主要原因。为了抵抗信道衰落的持续影响,一种常用的方式是通信分集技术。当存在多个信道时,它们同时处于深度衰落的可能性将大大降低,因此分集技术通过占用额外的通信开销,显著降低信道衰落的影响。但这种方式会导致系统复用增益的降低,造成频谱利
学位
随硬件水平发展,机器学习突破瓶颈,图像分类问题也成为深度学习活跃领域之一,而传统的深度学习一味增加网络深度与结构复杂程度,使用巨量的训练数据集以及庞大的硬件资源进行学习,这样的资源需求对于日常场景显然是不可行的。学习样本的数量与质量对深度学习效果的影响举足轻重,如何在样本不足的情况下快速训练网络以及如何使网络获得较好的泛化能力乃至网络的自我学习的能力是小样本学习的关键。在小样本图像分类问题中,图像
学位
随着现代科技的发展,无人机技术的发展范围也迅速扩大,通过无人机群执行难以由人力完成的任务,可以有效地减少不必要的人力消耗,降低复杂任务带来的伤亡和潜在的危险。无人机执行任务的一个重要前提是航迹规划,其本质是在满足无人机本身物理限制和任务约束的条件下,在复杂环境的可行路径中寻找最优解的过程,但随着任务复杂程度的增加,离线航迹规划的复杂度也随之增加;无人机飞行时潜在的突发威胁因素变得复杂,在线局部重规
学位
智能反射面(Intelligent Reflecting Surface,IRS)是由大量低成本的无源反射单元组成的二维电磁超表面,它可以“改变无线通信环境”,从而提高无线通信网络的性能,被认为是第六代移动通信(The 6th Generation,6G)的关键候选技术之一。物理层安全(Physical Layer Security,PLS)技术是一种利用无线信道的时变性、随机性、互易性等特点,独
学位
红外热成像技术具有全天候工作以及隐蔽性好等优势。红外弱小目标检测与跟踪技术应用于精确制导、红外监控以及早期预警等领域,具有重要意义和研究价值。但是红外弱小目标具有尺寸小、对比度低、缺乏纹理信息等特性,并且复杂红外背景中存在与目标尺寸以及亮度等相似的干扰,这些因素使得目标检测与跟踪任务困难重重。本文通过分析红外弱小目标特性,对红外弱小目标检测与跟踪技术展开了深入研究。首先,本文对红外辐射原理以及红外
学位
近年来,随着人们工作生活品质的要求不断提高,很多基于位置的服务逐步受到关注,而这些服务的核心就是准确获得使用者的位置。室内场所是很多人工作生活的主要活动区域,而卫星导航技术在室内的精度不高甚至会失效。在面对未知且复杂多变的室内环境时,如何进行准确且高效的定位并且快速熟悉周围环境是目前相关行业的研究热点,利用室内可以获取的各种信息进行定位和环境探测具有重要的现实意义和广阔的发展前景。本文以计算机图像
学位
脑机接口(Brain-Computer Interface,BCI)是一种通过对采集到的脑电图(Electroencephalogram,EEG)信号进行处理,将EEG信号解码成相应的脑部神经活动的科学技术。BCI系统不依赖于人体的神经-肌肉输出通路,提供了一种新型的与外界交流的方式。BCI系统按照所使用信号种类的不同可以划分为多种类型,其中基于运动想象的脑机接口(Motor Imagery Br
学位
以行政区划为边界,制作省、市、县等区域的固定周期全覆盖图,可用于变化监测、审计、执法督察、应急救灾等多种场景,遍及国土、水利、环保、应急、政务等多个行业领域。黑龙江省作为中国最大的林业和农业省份之一,生成该省固定周期内的全覆盖图,对黑龙江省的农业、林业进行监测意义重大。然而,生成固定周期内给定行政区域的全覆盖图,有两个关键问题亟需解决:一是厚云污染的问题;二是传感器无法覆盖的问题。针对上述问题,本
学位
由于中等轨道(Medium Earth Orbit,MEO)SAR具有覆盖范围广、平台运行稳定度高、工作时间长等优点,能够长期、动态、宏观地对海洋进行观测,因此本文主要研究MEO SAR对舰船目标成像方法。MEO SAR卫星轨道高度较高,轨道弯曲特性明显,使得双曲线性斜距模型误差较大,LEO SAR的成像算法不再适用于MEO SAR。在海面上航行的舰船运动存在多维度运动,既包括沿着航向的平行运动,
学位