基于加速算法及稀疏化卷积神经网络加速方案研究与设计

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xixihahawotiana
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Networks,CNNs)因其极大地提高了图像识别的准确率,而在图像处理领域受到追捧。但是卷积神经网络带来了大量卷积操作,其计算成本往往令人难以接受。为了加快执行速度,学术界提出了多种解决方案。解决方案主要从两方面出发,一是加速算法,利用高效的卷积加速算法处理卷积层,提升执行速度。然而,每种算法都有其优点和缺点,并且没有一种算法可以处理所有情况。第二便是使用硬件加速器,定制加速卷积运算。但目前定制硬件加速器多主要采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。针对目前这两种方案的缺陷,本文首先提出了应对算法特性各异的解决办法。本课题研究了GPU环境下各种算法的性能,充分探索不同数据结构参数对算法性能的影响,包括执行速度,占用显存和功耗/能耗随参数变化情况。同时深入到GPU底层,跟踪计算过程中调用的内核函数,从而概括总结这些算法的特性。最后,根据实验结果,总结每种算法的适用条件,从而设计了优化算法调度策略。该策略为卷积神经网络中不同数据结构参数的卷积层分配最优算法。使用该策略,在GPU环境下执行的Alex Net网络模型相比其他配置方案要快1.2倍至2.8倍。这项工作成功地为解决算法特性各异问题提供了一个解决方案,并且实验结果也可以为进一步优化加速算法提供见解。针对硬件方案,本文设计了一款卷积神经网络加速器,该加速器是基于Winograd稀疏算法,该算法被证明有效减少了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件与该算法的结合,可以在使用较少硬件资源的同时,取得相当高的性能水平。实验证明,相比于传统的硬件加速器,本方案将运算速度提升了近4.15倍;而从单个乘法器吞吐率的角度出发,本设计也将效率最多提高了近9倍。
其他文献
多变量时间序列(Multivariate Time Series)是在每一个时间步上都有多个变量值的时间序列。多变量时间序列分类作为多变量时序数据挖掘的重要分支,具有非常大的研究意义。当
随着汽车轻量化研究的进展,镁合金因其密度较低,而在汽车上的应用越来越广,但也因其耐蚀性较差,而限制了它在汽车上的进一步应用。本文利用热喷涂技术在AZ31B镁合金表面制备
五自由度混联机器人融合了串/并联机器人在工作空间、刚度和作业精度等方面的优点,在电力装备、汽车、轨道交通、船舶、航空航天等领域复杂结构件加工方面具备十分明显的优势
可调谐半导体激光吸收光谱技术(Tunable Diode Laser Absorption Spectroscopy,简称TDLAS)由于灵敏度高、响应速度快等特点在气体检测领域得到了广泛的应用。但该技术中使用
现阶段图像去反光已成为人工智能领域的研究热点,借助机器学习和深度学习算法可以对图片中的反光效果进行有效消除,方便且高效,但仍会面临诸多难点。图像中的反射层信息与背
热激活延迟荧光(thermally activated delayed fluorescence,TADF)材料的三重态激子能够反向系间窜越到单重态能级,发射延迟荧光,理论内量子效率能达到100%。与磷光材料相比,一
近几年来,随着光伏、光电产业的迅猛发展,磨粒线锯切割技术已经成为了脆性材料切片加工的主要方式。在磨粒线切割中,流体具有润滑,冷却加工区域,携带自由磨粒参与加工以及带
随着社会的进步、科技的发展,外骨骼作为一种结合机械动力和人类智能的新兴机器人,在军事、救灾、医疗等领域的应用越来越广泛。其中,通过下肢外骨骼帮助因神经损伤等原因导
准噶尔盆地南缘,构造区划上属于北天山山前褶皱冲断带,沉积地层发育齐全,地层自下而上颜色变化明显,露头区地层出露齐全,泥岩中粘土矿物含量丰富,为系统地开展泥岩盖层封闭性
当前,随着对移动机器人技术研究的深入,足式机器人已经具备了一定的自主运动能力和环境适应性能力,但是大多数足式机器人仍然缺乏执行高动态任务的能力,而执行高动态任务的关