基于异构处理器的深度卷积神经网络加速系统设计与实现

来源 :北京交通大学 | 被引量 : 17次 | 上传用户:sz_yaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的深度学习算法在图像分类、视频分析和语音识别等众多应用中显示出优于传统算法的巨大优势。DCNN的工作原理是对输入网络中的图片,由多个卷积层从输入数据中提取特征,然后经过分类层判断,最终得到输出结果。由于卷积层与全连接层是计算密集型运算,因此DCNN很难在低功耗的系统中实现实时的分类效果。本文基于开放运算语言(Open Computing Language,OpenCL)异构并行计算框架提出了一种针对低成本、低功耗SoC-FPGA的深度卷积神经网络加速系统。本文首先对DCNN的计算复杂度和并行度进行了分析,然后在OpenCL异构并行计算框架下,设计了卷积、池化、局部响应归一化、数据传入与数据传出五个具有特殊数据重用和任务映射方案的加速内核,由AlteraOpenCL扩展管道连接构成一个深度流水线结构,可以执行一系列基本的CNN运算,而无需再将层间数据存储回外部存储器中。这种深度流水结构能显著减少对SoC-FPGA至关重要的内存带宽需求。本文最终的设计是在Cyclone-VSoC-FPGA硬核处理器上实现的,为了验证本文提出的DCNN加速系统的通用性,本文选用了 AlexNet和VGG-16两个不同深度的CNN模型分别作了物体分类和人脸识别两个应用的加速实验,对于AlexNet网络,本文设计的平均分类时间为120毫秒/张,系统功耗为2.1瓦。将本文设计的DCNN加速系统与目前提出的基于移动CPU和GPU上最先进的软件加速器相比,在功耗相似的前提下,结果显示本文的加速系统在实时性上分别达到了 170倍和4倍的加速比。由于本文工作是首次针对低成本、低功耗的SoC-FPGA基于OpenCL的深度卷积神经加速系统的研究,为了与其他基于高端FPGA的设计进行比较,本文在Stratix-VA7FPGA重新编译了本文所提出的DCNN加速系统,并且在DE5-Net开发板上测试了性能,对于AlexNet网络,其平均分类时间为10.5毫秒/张,结果与已有的FPGA加速系统进行比较,在DSP资源和功耗相似的前提下,本文的设计将DCNN运行时间提高了 4.3倍。
其他文献
目的:分析全程心理护理联合常规护理对剖宫产初产妇疼痛及不良心理的改善情况。方法:选取本院2016年1月至2017年12月接诊的60例剖宫产初产妇,将其按照电脑随机表法分为观察组和
华椒一号辣椒华椒一号原系辽南地方农家品种。该品种在赤峰地区种植丰产性及适应性都比较突出,面积逐年扩大,是一个深受当地及外省区菜农及消费者欢迎的品种。1、特征特性该品种
目的探讨精神科护患语言沟通的技巧,更好地与精神病患者沟通,有针对性的做好心理护理,促使病人配合治疗,早日康复。方法对不同症状的患者,采用不同的语言技巧,有针对性地做好
提出了一种优化的LLC谐振电路控制方法。该方法可使LLC电路运行在一个宽的负载条件下,同时能在负载切换时有一个好的闭环动态效果。提出的方法在稳态时采用并行双PID控制,由此
建立了一类考虑避难所和捕食者气味干扰的食饵-捕食者模型,研究了避难所对在捕食者气味干扰下的食饵种群的影响,并分析了系统的动力学性态,运用Dulac-Bendixson原理证明了正
虽然规模化畜禽养殖可以为社会带来巨大的经济效益,但也会导致环境污染。文章分析了畜禽粪便污染现状,针对其存在的问题,提出了畜禽粪便无害化处理技术(如饲料化技术以及肥料
有效的财务控制是实现企业稳定管理,推动整个企业集团持续发展的重要保障。而集团财务控制问题在企业集团管理中,占据非常重要的地位,必须要积极探寻企业集团财务控制有效对
对于建筑施工企业来说最为重要的工具就是起重机械设备。它们是建筑施工企业日常运营的基础,也是企业外部形象之一。因此,加强房建施工现场起重机械设备的管理,是确保起重机
从机械式自动变速器(AMT)选换挡执行机构运动原理出发,推导出选换挡电机电流与换挡阻力的关系;分析了换挡时间、选换挡电机电流、换挡位移对AMT换挡性能的影响,并以此为AMT换挡
目的探讨胆碱能杀虫剂中毒后发生中间综合征(IMS)的相关危险因素。方法收集324例患者的一般临床资料包括年龄、性别、基础疾病,以及毒物类型、中毒途径、治疗方法、IMS的临床