基于BWDSP平台的DNN模型计算与部署优化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：yjf11230301

【摘要】

：

【作者】

：

杨江平

【出处】

：

中国科学技术大学

【发表日期】

：

2019年09期

【关键词】

：

深度神经网络前向计算反向计算模型压缩计算图优化编译部署

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来,得益于计算力与数据量的大规模提升,深度神经网络在图像分类、目标检测和语音识别等领域取得了超越人类的表现成果。目前许多研究人员与开发者纷纷将深度学习技术这项技术产业化,移动设备、嵌入式系统和众多加速器等一系列硬件设施渐渐成为这一技术落地首选平台。然而,这些平台的计算能力与存储空间十分有限,直接将深度神经网络模型部署到这类资源受限的平台会面临诸多困难。为了解决深度学习存储和计算问题,一个方案则是将模型交给云端处理计算任务,因此,终端设备主要任务是只需要关注数据通信,发送图像和接收结果。然而,该方案不仅依赖于网络稳定性能,同时会导致个人隐私的泄露。因此目前许多研究人员从计算效率和模型压缩两个角度出发,以降低深度学习模型在终端设备上计算与部署的成本过高等问题。而在众多嵌入式处理器中,数字信号处理器DSP的计算能力相对较强,和其他处理器相比,更适合处理深度学习这类计算密集型任务。针对这一研究课题,本文基于嵌入式处理器BWDSP提出了DNN模型高效计算与快速部署等一系列优化策略,并开发出一套深度学习计算库bwDNN和将工作负载从上层描述映射到底层BWDSP硬件平台的编译部署框架BWVM。本文的主要研究成果包括:1.实现并优化了基于BWDSP计算平台的深度学习计算库bwDNN,包括前向计算模块、反向计算模块、数学运算模块和内存管理模块等。实验结果表明,卷积计算与反卷积计算在BWDSP平台其最高计算性能可达到11.07GFLOPS,约为BWDSP平台理论计算性能的86.5%;同时bwDNN计算库在等效负载与资源下,其计算性能是Intel深度学习计算库MKL-DNN的1.96到2.30倍。2.设计了一个基于模型大小与硬件资源共同约束下的模型裁剪策略,该策略对上层深度学习框架Tensorflow描述并构建好的预训练模型进行模型压缩,并综合模型自身大小和目标硬件资源,给出模型中每一层的压缩率,使得压缩后得到的轻量级模型可以在资源受限的BWDSP上高效运行。实验发现,本文提出的模型压缩率和其他已有的几种经验策略相比,在计算裁剪量均减少50%后,本文提出的裁剪策略在CIFAR-10数据集上的正确率要优于统一压缩、浅层策略和深层策略这些基于经验的裁剪规则。3.提出了一个从顶层模型描述到后端硬件的自动化编译部署工具,它是一个后端基于BWDPS处理器的编译部署框架BWVM,该框架包括深度学习框架模型计算图的解析与重构、计算图优化以及目标平台代码生成等步骤。通过实验测试,图优化和代码自动生成等优化措施可以有效提升代码质量,相比bwDNN计算库中手写的卷积代码,BWVM框架生成的代码的硬件资源利用率约提升7.3%,访存开销降低了8.4%。综上,本文通过上述三点内容描述了深度神经网络在DSP嵌入式平台上的部署及离线推断等AI相关任务执行。本文主要研究了深度学习模型的运行、微调与优化,以期快速实现实时推断;同时开展了从上层用户接口、神经网络中间表示、优化和到底层代码生成等软件栈的研究。

其他文献

老年人无痛内镜诊疗安全性分析

目的:内镜技术是诊断消化道疾病最常用、最可靠的方法,也是经自然孔道治疗胃肠道息肉、早癌、胆道结石等的有效方法。但常规胃肠镜检查及治疗过程中剧烈的不适或担心诱发心脑

学位

老年人无痛内镜有效性舒适性安全性

浅析我国领导干部教育培训体系的问题及对策

随着我国经济的快速发展,原有的领导干部教育培训体系逐渐暴露出教育培训内容设置的不科学性、教育培训方式方法的单一性、教育培训师资力量的薄弱性等一系列问题。因此急需

期刊

领导干部教育培训体系完善路径

基于离子液体的分散液液微萃取在农残分析检测中的应用

随着世界范围内农药的大量使用,农药残留问题不容忽视。农药残留一直是食品安全中的热点话题,对不同食品中农药残留的含量进行测定尤为重要。分散液液微萃取(DLLME)技术是一种绿色、环保的新型样品前处理技术。分散液液微萃取方法在农药残留的富集中有着其它方法无法比拟的优势,被广泛应用于不同食品中农药残留的预浓缩。本文分别建立了拟除虫菊酯类农药和新烟碱类农药的分散液液微萃取体系,同时对新烟碱类农药检测过程中

学位

农药残留离子液体分散液液微萃取超高效液相色谱基质效应

基于卷积神经网络的非迭代压缩感知重构算法研究

压缩感知是指利用少量测量值通过非线性重构算法完美重构信号。目前采用迭代优化算法的压缩感知系统,重构过程中需要进行复杂的迭代运算,重构时间较长,并且在低采样率下,图像

学位

压缩感知卷积神经网络自编码模型残差网络多尺度卷积扩张卷积

念念敦煌12年，这对情侣把壁画做成动画

北京，隆冬，中国国家图书馆文津堂，周日起大早来听讲座的人坐满了台阶，站立的队伍排出了大门，实在挤不进去的只能在大厅站着看大屏幕直播。敦煌研究院陈海涛、陈琦合著的《图说敦煌

报纸

基于大数据分析的突发事件网络舆情预警研究

[目的/意义]随着社交媒体的发展,突发事件经由网络传播引发网络舆情,网络舆情的预警是引导网络舆情,进而管控突发事件发展态势的前提,在大数据环境中,突发事件网络舆情的预警

期刊

大数据分析突发事件网络舆情舆情预警案例分析

初中生未来时间洞察力、学业延迟满足与学业成绩关系研究

初中生正处于筑梦、逐梦、圆梦的关键阶段,他们已经开始畅想未来以及尝试对未来的学习生活进行规划。未来时间洞察力是指个体对于将来状况的认识、态度以及行为倾向,所以对于初中生未来时间洞察力的研究有助于他们能够更加有效合理的规划未来。同时,由于时代的快速发展,我们的初中生面对的挑战日益严峻。学生们需要在参与丰富的校园活动、掌握瞬息万变的时事动态的同时有效管理自己的学习生活,也就是说,学生在学业情境下,能够

学位

未来时间洞察力学业延迟满足学业成绩

功能化改性水滑石吸附阴离子污染物的性能研究

近年来,水滑石类化合物(Layered Double Hydroxide,LDH)作为一种新型的吸附剂,由于具有独特的层状结构和物化特性,成为国内外研究的热点。然而,对水滑石进行功能化改性后用来

学位

水滑石功能化改性吸附磷酸根铬酸根

辊压机终粉磨系统侧进风选粉机改进措施

<正>1改进后的侧进风选粉机存在的问题2016年4月天津院设计的首台侧进风式选粉机在我公司B线Ф1.8m×1.4m生料辊压机终粉磨系统中应用,选粉机选粉效率低的问题一直制约着系统

期刊

终粉磨系统导向叶片含尘气体笼形转子旋风收尘

为推进强国强军伟业凝心聚力

东风浩荡满眼春，万里山河起宏图。今天，十三届全国人大二次会议在北京隆重开幕。全国政协十三届二次会议也于日前开幕。解放军和武警部队官兵向两会的胜利召开表示热烈祝贺！$$这

报纸

基于BWDSP平台的DNN模型计算与部署优化研究

与本文相关的学术论文