嵌入式深度神经网络的模型压缩与前向加速技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:felltwo23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习算法的快速发展,深度神经网络(Deep Neural Networks,DNNs)在图像分类,语音识别,物体检测等一系列机器学习任务中取得了最先进的成果。然而,DNNs的密集型计算与存储需求使其很难部署到只有有限资源的嵌入式设备当中,如何使DNNs能够很好的移植到嵌入式设备当中已经成为当今深度学习研究的一大热点内容。本文的主要目的是构建实时的嵌入式深度学习系统,该系统主要包含DNNs的模型存储压缩研究以及基于ARMV7嵌入式平台的计算加速研究两个方面,具体的工作如下:(1):本文对于深度神经网络结构的基本组成做出了简单的介绍,分析了网络的传播算法与相关优化算法,同时描述了 ARMV7嵌入式平台下基于SIMD指令集的计算优化方法,为后续的研究提供技术支持。(2):在嵌入式深度学习系统的模型压缩研究当中,针对DNNs的密集型存储需求,本文提出了一种非对称三元权重量化方法实现DNNs模型的存储压缩。在训练过程中,量化方法将网络每一层权重都量化到{+α1,0,-α2}三元值当中,实现权重的离散化处理,训练完成之后采用2-bit编码方式进行压缩存储,相比于传统的浮点型网络,可以获得16倍的模型压缩比,大大降低了 DNNs对硬件存储空间的需求。实验结果表明,经过量化之后的网络在CIFAR-10数据集上的分类识别率比传统的浮点型网络提高了 0.33%,而在ImageNet数据集上的分类识别率仅仅降低了 0.63%,非对称三元权重量化方法并没有对网络的准确率产生较大的影响。(3):针对嵌入式系统当中缺乏如GPU这样的快速计算设备,本文采用NEON向量化指令实现了 8-bit定点矩阵乘法,加速了 DNNs的前向传播过程。在每一层网络处理过程中,首先将传统的32-bit浮点型权重转变为8-bit定点整数,利用8-bit定点矩阵乘法具有较低的数据带宽与较快的计算速度实现网络层的快速计算,最后将定点计算的结果还原成浮点型数值用于后续层的计算和传输。实验结果表明,经过8-bit定点矩阵乘法优化之后的DNNs前向传输速度相比于传统的浮点型矩阵计算提升了 2-3倍,有效的降低了 DNNs在嵌入式设备中的运行时间。
其他文献
教材:义务教育课程标准实验教科书人教版二年级数学上册第三单元。
以贵州黔南地区百脉根为研究材料,接种不同复合菌株处理(溶磷菌剂、固氮菌剂和溶磷+固氮混合)与对照相比,百脉根株高及地上生物量提高明显。无论第一茬还是第二茬,溶磷+固氮混合处理
21世纪是科技竞争的世纪,随着现代医学科技的迅速发展,社会对医学生的综合素质提出了更高的要求,医学生必须具备良好的科学素养和科研能力,才能适应现代社会发展的需要.因此,
山区的面积占到我国总面积的三分之二,在公路建设及运营过程中,由于地形条件限制和公路线形的制约,难免会开挖形成岩质深路堑。近年来,公路危岩崩塌灾害时常发生,治理危岩崩
通过2003年和2010年两个航次的多波束数据,结合单波束及地貌数据,对该5区域沙波的形态特征及变化趋势进行了分析。陆丰13-1油田和陆丰13-2油田位于南海珠江口盆地陆丰区块,二者相距约12km。研究表明:在这7年中,陆丰13-2至陆丰13-1平台间的部分区域沙波发生了明显变化,沙波存在移动且进行了一定改造。
新世纪以来,实施通识教育作为中国高校教育改革的重要方向,其理念和施行模式已与我国高等教育体系紧密相连。然而,舞蹈教育作为美育的重要组成部分,同时也是通识教育推行的重
确保水平井轨迹顺畅、提高储层钻遇率和实施效果已成为水平井开发的技术难点。以苏54区块所实施水平井为例,通过对水平井实施情况进行分析,结合苏里格气田基本地质特征,从水
中国菜一大特点就是很多菜名既体现了表层含义,更糅合了深刻的内涵,汇聚了华夏儿女的智慧,同时也是中华优秀文化结晶的突出彰显。但是由于中西方语言和文化的鸿沟,导致我国很
不忘初心、牢记使命是党的建设的永恒课题,提出建立不忘初心、牢记使命的制度是党的领导制度体系建设的一个重大创新,体现了我们党对共产党执政规律的认识达到了新高度。目前