MobileNet轻量化神经网络硬件加速器设计

来源 :天津大学 | 被引量 : 0次 | 上传用户:zx350220519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络广泛应用于图像分类、目标检测以及图像分割等计算机视觉任务。随着卷积神经网络算法的不断发展,网络规模的不断增加,需要的计算和存储资源也随之剧增,给卷积神经网络的应用带来许多挑战。基于此,轻量化卷积神经网络得到了学术界和工业界的广泛关注,MobileNet就是人工设计轻量化神经网络模型的典型代表。通过设计更为高效的网络计算方式,MobileNet可以减少大量参数和计算,更为适合计算资源和存储资源受限的移动端、嵌入式设备。即便如此,采用软件执行卷积神经网络算法仍会是一项非常耗时的工作。为满足移动端、嵌入式设备对于实时性的需求,各类卷积神经网络硬件加速器应运而生。其中,现场可编程门阵列因其强大的并行计算能力、高能效、高灵活性和可拓展性成为卷积神经网络硬件加速的理想平台。本文设计了一款MobileNet轻量化神经网络硬件加速器。在架构层面,加速器采用单引擎架构,计算引擎可同时兼容MobileNet所需的标准卷积、深度卷积和逐点卷积。在硬件实现和优化层面,本文首先提出一种针对瓶颈结构和直连操作的数据流及适配的输入缓存单元设计,可充分利用片上存储资源,减少数据传输耗时;其次,针对软件零填充方案存在的额外时间开销,提出一种基于行缓存和矩阵拼接的硬件零填充优化方案,可有效利用数据流动过程中的无效窗口;还提出一种适配不同卷积类型的可配置加法树累加模块设计,可节省计算资源。在量化层面,本文采用仿射量化方案在精度损失1.2%的前提下将数据位宽降至8位。实验表明,本文基于Virtex-7 XC7V690t FPGA的硬件加速器在150 MHz的主频下处理速度达到302.3 FPS,平均性能达到181.8 GOPS,分别是Snapdragon821 CPU、i7-6700HQ CPU和GTX 960M GPU的22.7倍、3.9倍和1.4倍。同时,该基于仿射量化方案的硬件加速器Top-1准确率为70.8%,在同类MobileNet硬件加速器中准确率最高。
其他文献
火灾是日常生活中主要灾害之一,严重威胁着人们的生命与财产安全,因此及时准确地发现火灾并预警具有十分重要的研究意义。传统的图像型火灾检测方法大都是基于对火焰浅层特征的提取,鲁棒性较差,很难适应于复杂环境下的火灾检测。近些年,随着深度学习技术的不断发展,利用卷积神经网络进行图像型火灾检测渐渐成为研究热点。但是,现有的基于深度学习的火灾检测方法存在着模型复杂、大量使用锚框、难以满足高检测率和高实时性检测
学位
<正>毒蘑菇中毒是湖南省主要的食源性疾病致病和致死因子,每年发生上百起中毒事件,给广大群众的身体健康和生命安全带来严重威胁。湖南省野生食用菌种类多、分布广,据统计,全省较为常见且易被误食引发中毒的毒蘑菇有20余种,不同种类的毒蘑菇含有多种不同毒素,可导致不同中毒症状,其中部分剧毒者可引发肝、肾损害以及横纹肌溶解和溶血等症状,可危及生命,需要对症进行不同的治疗。因此,发生中毒后的早期准确识别、及时诊
期刊
排汽室的性能对离心压缩机经济性影响很大,目前离心压缩机普遍使用切向排汽蜗壳,其排汽蜗壳流场稳定,气动性能较好。排汽蜗壳设计时不仅需要考虑气动性能如总压损失系数、静压恢复系数的高低,同时需要考虑结构紧凑性。本文针对某单级离心压缩机,给出了切向排汽蜗壳设计原理,使用大型3D数值分析软件CFX,对比分析了4种不同结构的排汽蜗壳,得出蜗壳外径一定的条件下,并不是无叶扩压器越长性能越好;无叶扩压器与排汽蜗壳
期刊
为提高气体传感器检测数据分类的准确度,提出一种随机森林算法,利用传感器响应输出电压和响应时间构建模型的特征向量,实验研究二氧化碳气体体积分数的分类,分析决策树数量对模型分类准确度的影响,验证模型分类的有效性。结果表明,与传统分类方法相比,随机森林算法模型的准确度能够达到94.6%,提高了分类准确度和计算效率。该研究为气体传感器数据分析提供了参考。
期刊
人体动作识别的目标是通过视频分析和特征提取帮助计算机实现对视频中动作的识别,在安防监控、医疗检测、人机交互等领域都有丰富的应用场景和较高的应用价值。与基于RGB图像的方法相比,基于骨架的动作识别因其对光照、遮挡、视角、尺度等环境因素具有较高的鲁棒性,更适用于实际场景的应用。图卷积网络因其能保留和提取非欧式数据中的空间信息,在基于骨架的动作识别上取得了突出的性能。本文结合图卷积和深度学习中的时序建模
学位
传统的有源像素图像传感器具有像素尺寸小、噪声低、灵敏度高的特征。但是由于其基于帧的曝光方式,传感器的数据率和功耗会随着帧频的提升线性增加,造成传感器的速度瓶颈。脉冲图像传感器通过脉冲调制,将光强转换为时间域的脉冲输出,在同等数据带宽下完成了数据率的压缩,极大地提高了帧频。由于在时间域编码光强的特殊工作方式,脉冲图像传感器不能采用传统相关双采样技术抑制噪声。相对较差的噪声性能限制了脉冲图像传感器的发
学位
由于5G提出的超高速(20 Gbit/s)通信指标,基站建设量激增,加之大规模天线阵列技术的应用,对通信系统能耗提出更高的要求。以通信基站为例,微波无源器件(如介质滤波器、介质天线等)的损耗可占系统能耗的40%以上,减小微波无源器件的损耗成为降低通信系统能耗的关键。微波介质陶瓷作为微波无源器件的核心,其品质因数(Q)直接决定器件的损耗大小,因此超高品质因数(Q×f>200,000GHz)的Ba(M
学位
报纸
相控阵技术起源于上世纪六、七十年代,被广泛应用在雷达和通信系统领域。硅基收发组件以低廉的成本、可靠的性能及优良的集成度,逐渐成为相控阵技术的研究热点。特别的,衰减器作为相控阵收发组件中重要的幅度控制模块,具有高线性度、低功耗等特性,深入研究和提高衰减器的性能对提升有源相控阵收发系统的性能有着重要的理论意义和应用价值。本文以硅基相控阵收发组件中的数控式幅度衰减器为主要研究内容,以宽工作频带、低相位误
学位
射电望远镜作为人类探索宇宙的“眼睛”,其发展一直吸引着人们的目光。为了在宇宙起源、生命起源等重大前沿问题上取得突破,世界上最大的射电望远镜即平方公里阵列(Square Kilometer Array,SKA)的设想被提出,中频孔径阵列(Mid-Frequency Aperture Array,MFAA)是SKA的重要组成部分。随着无线通信技术的发展,波束合成技术成为提高MFAA性能的重要方法,其通
学位