卷积神经网络硬件实现的关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:javashhai2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以卷积神经网络为代表的深度学习技术已被应用于越来越多的场景中。然而,卷积神经网络的体积和计算量通常过于庞大,对内存、带宽和计算资源都有很高的要求;尽管各类硬件设备的性能也在提高,但仍然跟不上大型网络的发展速度,这使得卷积神经网络的进一步推广受到很大的限制。因此,如何在保持卷积神经网络的性能的前提下,对其进行压缩和加速,成为一个亟需解决的问题。此前已有不少学者对卷积神经网络的参数量化、结构剪枝、权重低秩分解以及硬件实现等方向进行过研究,其中一些工作还对多种技术进行了组合。本文也提出了一套将量化技术和剪枝技术级联组合的解决方案,分别对这两项技术进行了改进,并引入知识蒸馏技术来弥补压缩操作所带来的性能损失,主要的工作如下:针对卷积神经网络难以被量化至极低精度的问题,使用了混合精度的量化方案,允许各层使用不同的量化位数;并且提出了一种渐次量化的策略,能够在较短时间内为各层参数挑选最合适的精度。实验结果表明,使用该算法可以更加灵活地对卷积神经网络进行修改,有效降其参数的体积。针对剪枝的准确性问题和可推广性问题,提出了一种结合了全局信息和局部信息的通道重要性评分方法,并设计了一种基于评分结果自动确定各层裁剪比例的剪枝策略,还对不同类型的卷积神经网络的裁剪方法进行了研究。实验结果表明,该算法对于多种卷积神经网络均有效果,能够同时减小体积和计算量的规模。针对上述方案的可行性问题,在FPGA平台上对压缩前、后的卷积神经网络进行了实现,并对比二者所需的硬件资源数量和计算延时。实验结果表明,此方案在FPGA上也能实现对于卷积神经网络的有效压缩和加速,但与理论效果之间具有一些差异。
其他文献
目的龋病是最常见的口腔疾病之一,致龋菌的检测对龋病的预防和诊断具有重要意义。经典的平板菌落计数法耗时费力;分子生物学方法虽检测时间相对较短,但其所用设备昂贵,技术要求较高,不利于普及和推广。针对这一现状,本研究拟通过对四氧化三铁纳米颗粒(Fe3O4 Nanoparticles,Fe3O4 NPs)和DNA构成的纳米界面进行设计与改进,构建一系列生物传感器用于口腔细菌检测,期望其不但能发挥灵敏度高、
同频混合信号的单通道盲分离在成对载波多址(Paired Carrier Multiple Access,PCMA)非合作通信中广泛应用。对于单通道接收的混合信号,非合作第三方难以构造出信号分离的正定条件,无法开展有效的信息解调。研究如何实现信号的单通道盲分离,对提高通信信号侦察能力具有重大意义。本文在盲分离研究中引入了深度学习方法,降低了盲分离的复杂度,并且具有更强的适应性,可以在多种时变的信道下
随着机器人科学技术的发展,软体机器人受到了越来越多的研究者的关注。软体机器人一般用具有柔性、弹性的材料制作而成,与传统的刚性机器人相比,它具有形变能力、运动能力以及安全性上的优势,同时在医疗领域,对于手术机器人的研究已经成为了一个热门课题。因此在本文中将两者结合起来,设计末端能够跟随跳动的心脏进行手术操作的机器人系统。软体手术机器人心脏跟踪系统的难点在于,软体机器人的建模方法更为复杂,因为软体机械
现阶段我国的老龄化进程加剧,人口老龄化会带来诸多的健康问题。因此,针对有健康问题的老年人群体,除了定期的诊疗外,对他们的生理参数进行实时监控有助于跟踪和掌握其身体状况,对疾病后期的康复以及治疗过程提供依据。传统的监护设备存在体积大、线路多、功能单一以及监护费用高等缺点。此外,传统的监护设备通常存在于医院等集中治疗的场所,无法实现老年人群体在家监护等需要长期监护的场所。随着传感器技术、微型化集成技术
目的:通过测量正常人颌骨表面特征点数据,研究上、下颌骨轮廓外形间的内在联系,为跨中线颌骨缺损的个性化重建设计提供参考。方法:应用Proplan CMF 3.0手术规划软件对正常成年人颌骨CT数据(Dicom格式)进行三维重建,定义并描记16个颌骨重建关键位点,测量由其构成的20项外形参数。借助SPSS 22.0软件对颌骨外形数据进行统计分析。设置上颌骨全失或下颌骨全失的两种极端缺损情况,运用标准化
六足机器人由于具有运动方式多样、稳定性好、承载力强等优点,面对复杂的、非结构化的地形具有较强的适应能力,其应用场景较为广泛,如抢险救灾、星际探索等。对于其运动规划的研究,一直是六足机器人的研究热点之一。目前,六足机器人的运动规划较多地采用了以数学模型构建为主的模块化控制的方法,将运动规划分为路径规划和轨迹规划分别进行研究。但是由于六足机器人是具有多传感器的多输入多输出系统,其结构较为复杂,因而带来
传统的人工分拣方式由于其低效率、低准确率、高劳动力成本以及作业场景受限等缺点,难以满足在日常生活与工业生产中日益增长的分拣需求。近年来,随着机器人技术的快速发展,大量的分拣机器人被开发并应用于各种场景中进行高速、准确的分拣作业,其主要采用刚性的串、并联机构,具有安全性较低、运动空间相对较小的缺点,并且对于中低负载、中等速度的分拣任务,其具有过剩的精度和过高的成本。因此,针对这类分拣任务设计低成本、
压电谐振器是一些传感器、驱动器的核心部件,这些器件包括压电陀螺仪、压电振荡器、压电滤波器、压电变压器等,它们在国计民生中的应用极为广泛。例如,基于压电谐振式的温度传感器利用的是压电谐振器的热敏感性导致的谐振频率偏移,具有分辨率高、成本低、功耗低等特点;基于压电谐振式的变压器可以实现升压或者降压功能,相较于传统电磁式变压器,具有体积小、质量轻、高功率密度、高效率、避免电磁干扰等优点;基于压电谐振器技
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是移动机器人实现自主运动的关键技术之一。多数先进的基于特征法的视觉SLAM方法采用点特征构建数据关联,但在相机快速运动、光照变化和弱纹理场景等挑战下,仅基于点特征的方法性能下降,甚至定位失败。线特征广泛分布于人造环境中,因此可以与点特征结合使用来改善视觉SLAM中特征缺失的问题。SLAM方法的
尽管现在基于深度学习的图像压缩算法已基本达到甚至超过了传统算法的重建效果。但为了提升重建效果而加入的大量复杂而繁琐的模型结构,使其编码、解码所需的计算时间远超传统的压缩算法,因而在实际运用价值上仍远不如传统的压缩算法。本文主要的研究目的是在保证模型的压缩效果无明显下降的情况下,尽可能的优化模型的各个结构。本文通过实验,发现模型的大部分编码与解码时间消耗均用在模型的编码器首层与解码器末层,故将这两个