卷积神经网络的算法优化与高效部署

来源 :南京大学 | 被引量 : 0次 | 上传用户：lurenjia1983

【摘要】

：

近年来以卷积神经网络为代表的深度学习技术,在许多任务上取得了优异的性能,显著超越了传统算法。但是,深度学习方法往往需要消耗大量的算力与存储资源,在模型训练阶段,其可

【作者】

：

王昊楠

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

卷积神经网络算法优化模型压缩硬件加速

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来以卷积神经网络为代表的深度学习技术,在许多任务上取得了优异的性能,显著超越了传统算法。但是,深度学习方法往往需要消耗大量的算力与存储资源,在模型训练阶段,其可以依赖于超算或高性能图形处理器以满足其算力要求;然而在移动端与边缘端应用的部署过程中,其仍面临着速度、精度与资源三方面的约束和权衡。更具体地来说,想要以较快的速度处理庞大的深度学习模型,需要强大的算力平台,然而在硬件/功耗资源受限的应用场景下,中央处理器与高性能图形处理器因算力限制或庞大的功耗,显然无法作为深度学习的部署平台。因此,设计针对深度学习算法优化的高效能硬件加速器架构变得十分重要,用以在受限的资源条件下达到和高性能平台相近的处理速度。同时,研究表明深度学习模型存在大量的参数冗余,所以可以通过模型压缩的方法来降低显著模型大小、提升模型推理速度,但模型压缩往往也伴随着模型精度的损失,如何同时优化模型压缩率和精度损失便成为该领域的研究热点之一。另外,随着深度学习方法在不同应用领域的拓展,主流的模型压缩方法可能不再普适地适用于不同领域,而通过结合特定领域的数据分布,提出优化算法弥合压缩方法带来的精度损失,也是未来深度学习进一步发展的特点。因而,本文在将聚焦在上述三个方面,针对这些领域所面临的一些关键问题和挑战,提出具有一定创新性的解决方案。首先,本文介绍了在模型压缩算法与硬件高效推理中的研究工作。目前比较主流的卷积神经网络往往包含百万到千万级的参数量,推理过程的算力需求将达到数十亿次乘累加操作,卷积操作更是占据了其中90%以上的乘累加操作。因此,本文首先在卷积神经网络中引入了用于卷积强度缩减的级联快速滤波算法,平均降低了41.5%的卷积运算复杂度。但是同时,我们注意到快速滤波算法的硬件架构设计往往只针对某一主流尺寸的卷积核进行支持和优化,而无法高效支持各种主流尺寸卷积核,导致基于该算法的硬件加速器往往不具备可重构性或者在不同工况下的平均硬件效率低下。所以本文提出了基于级联快速滤波算法的可重构卷积加速单元架构,可以高效支持不同尺寸的卷积核,在5种主流的尺寸上达到了76.4%的硬件利用效率,并可以支持从1×1到12×12的所有尺寸卷积核,同时,本文还提出了基于该卷积单元的高效数据流,实验结果显示该结构在可重构性和计算复杂度上显著优于其他业界先进的卷积加速器。为了更进一步提升卷积网络的部署效率,本文引入了在Winograd域中结合了剪枝稀疏化方法的稀疏化Winograd算法,可以大幅降低网络计算负载至原网络的8%,并基于该算法设计了一款低时延高效能的卷积网络加速器。该加速器架构创新性地针对稀疏化的权重和激活,设计了二进制掩码索引单元,跳过所有冗余乘法计算(含0操作数),达到有效降低卷积计算负载和节约时钟周期的优化效果;同时,该架构精心设计了基于异步访存的串行处理延迟同步数据流,可以有效缓解稀疏化的数据带来的负载不均衡问题。相较于其他最先进的Winograd加速器,我们的设计显著减少了硬件计算和存储资源消耗,分别节省了50%的DSP、29%的BRAM、41%的LUT和38%的寄存器资源,并达到了最高1.7倍至5.1倍的时延降低。此外,目前主流的模型压缩与硬件部署方案往往针对于二维卷积神经网络模型,而随着计算机视觉领域的深入发展,二维视觉任务逐渐走向成熟,更多的工作开始转向研究卷积神经网络在三维视觉任务中的应用。由于三维任务更高的计算量,三维轻量化模型的研究变得尤为重要,但其往往会带来模型精度上的显著衰减,所以本文更进一步地研究了三维卷积神经网络的算法精度和模型压缩的协同优化。在视频识别任务上,本文提出了一个轻量化的全分离卷积模块,可以大幅降低网络参数量,显著降低了网络的计算复杂度;而后在该轻量化模型的基础上,结合视频数据的分布特征,提出了一个时域特征增强模块,可以以很小的计算量达到大幅提升模型泛化性能的效果。实验结果显示,应用在最新的视频识别网络上,我们的方法可以带来2.3倍的模型压缩率,并且显著地恢复了7.9%的模型精度损失。综上,本文的工作以高效部署卷积神经网络为核心目标,结合算法优化、模型压缩和硬件架构设计的方法,在算法到硬件部署的全流程中提出了优化部署的方案,相较于其他学术界最新工作取得了一定程度的性能提升。

其他文献

基于优化权值网络的系统偏差配准方法研究

在多传感器监控系统中,目标的位置和速度等信息都是通过传感器测量获得的。随着当今科技的进步,传感器的性能也有了很大提升。但是传感器在长期使用过程中,还是不免会受其内

学位

系统偏差配准权值网络SRUKF算法PSO算法DE算法

单节理应力波传播特性及在隧洞围岩松动圈判识中的应用

随着我国经济建设的飞速发展,大量岩土工程项目处于在建阶段,近年来,隧洞工程项目大量增多。研究岩土工程中应力波及其节理岩体等的相关关系及隧洞围岩松动圈的判识方法是如今研究热点之一。故本文主要就单节理岩体中应力波的传播规律进行探究并结合其相关理论知识探测围岩松动圈厚度。根据整体构架,本文分为应力波相关探究的理论模拟部分,节理岩体相关探究的试验部分及测定围岩松动圈的工程实践部分。外界的扰动引起的介质内质

学位

应力波分离式霍普金森压杆围岩松动圈单孔摄像法雷达法

面向数控机床加工位置不确定的铣削稳定性优化研究

高速铣削加工作为先进制造技术的基础共性技术之一,被广泛应用于航空、航天、能源、轨道交通以及金属铣削加工等行业,具有广阔的应用前景。铣削加工过程中,在远低于额定功率

学位

铣削稳定性加工位置进给方向支持向量回归机遗传算法

焦化企业安全管理体系评价研究

经济的迅猛增长促使人们对安全问题更加重视,然而目前我国在安全管理方面仍不完善,致使安全事故频发,造成人员伤亡、财产损失和环境污染。国家相关组织和国际标准化组织针对

学位

焦化企业安全管理体系成熟度模型综合评价

激光脉冲对光学材料损伤的热特性研究

激光诱导光学材料损伤的研究一直是高功率激光装置中亟需解决的重要问题之一。高功率密度的激光脉冲对光学材料的抗激光损伤能力提出严格的要求,材料的损坏直接影响激光系统的安全稳定,制约其输出能力。因此,研究如何提高光学材料的损伤阈值,具有重要的实际意义。用于理论分析激光与物质作用机理的方法有解析法和数值计算法。解析法计算复杂,且只适用于极少数情况;有限元法相比于有限差分法,具有非常好的灵活性和非常强的处理

学位

有限元法傅里叶热传导理论热弹性理论ANSYS光学玻璃光学薄膜杂质微粒

氯化镧对竹黄菌合成竹红菌甲素的调控研究

竹黄是一种传统中药,来源于为生长在竹子的病原真菌竹黄菌(Shiraia bambusicola)子实体,竹黄可用来治疗风湿关节痛、胃痛、白癜风和银屑病。竹红菌素(hypocrellin)是竹黄子实体中的苝醌类色素,是一类新型的高效光敏剂。竹红菌甲素(hypocrellin A,HA),通过光动力学(Photodynamic therapy,PDT)可治疗各种皮肤疾病,包括外阴白色病变、淀粉样变性苔

学位

竹黄菌竹红菌甲素镧离子活性氧生物合成

岩石裂隙渗流传质特性的力学损伤及温度效应

高放废物地质处置、增强型地热系统、CO_2地质封存等深地工程都涉及到裂隙岩体复杂的变形/损伤–温度–渗流–传质耦合过程,全面理解多场耦合作用下裂隙岩体渗流传质特性的时空演化规律是深地工程全生命周期安全评价的重要理论基础。本文以我国高放废物地质处置库首选预选区甘肃北山花岗岩为研究对象,分别开展了花岗岩裂隙剪切损伤特征、渗透特性温度效应两组室内试验,并发展了花岗岩裂隙变形/损伤–温度–渗流–传质耦合过

学位

北山花岗岩裂隙直剪损伤温度渗透性

热带太平洋障碍层的特征、演变机理及其与ENSO的关联

本文基于2004～2017年Argo网格数据集(BOA_Argo),系统分析了热带太平洋障碍层厚度的特征、演变机理及其与ENSO事件的关联。在年平均意义上,热带太平洋障碍层呈现出3条显著的从

学位

热带太平洋障碍层厄尔尼诺-南方涛动东部型厄尔尼诺中部型厄尔尼诺海表面盐度锋

猪PRRSV抗性评价及APOBEC3F多态性与PRRSV抗性的关联研究

猪繁殖与呼吸综合征(PRRS)是由猪繁殖与呼吸综合症病毒(PRRSV)引起的高度传染性疾病,主要表现为呼吸道疾病症状和妊娠母猪繁殖障碍。该病于1996年首次在我国出现,并于2006年

学位

猪繁殖与呼吸综合征病毒抗性猪品种猪肺泡巨噬细胞载脂蛋白BmRNA编辑酶催化多肽3F基因多态性

数码时代的“白”

当今时代是一个信息化、网络化、数字化、彩色化急剧膨胀的时代。从书刊、杂志、招贴画到影视录像等,无不渗透着数字时代的信息。各式各样的数码产品环绕在我们身边,显示屏在

学位

数码时代色彩管理色温特性文件

卷积神经网络的算法优化与高效部署

与本文相关的学术论文