深度神经网络量化及其硬件加速研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:reato
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能产业飞速发展,其中深度神经网络的进步尤为显著。然而神经网络优异表现的代价是复杂的网络结构和庞大的计算量。单纯追求网络性能而不考虑运算代价将会极大地限制其能被部署的应用场景。数据量化是一种主流的神经网络部署研究方向。量化通过减少数据表示的比特位宽来对网络进行压缩和加速,不需要改动原有网络结构,并且对硬件友好,但现有方法也存在一些问题。首先,现有量化感知训练方法需要访问原始数据集并确定量化位宽,而这两个前提条件在实际情况中不一定能满足。其次,现有量化算法对网络的压缩加速还存在大量冗余,可以通过算法架构协同设计进一步提升网络推理效率。针对上述问题及缺陷,本文做出以下创新性研究成果:·本文针对量化感知训练中无训练数据和量化位宽不确定这两种场景,分别提出了无数据量化感知微调(DFQF)和动态精度洋葱量化(DPOQ)。无数据量化DFQF方法首先依据全精度模型的输出训练一个生成网络,然后通过生成网络来伪造训练数据集,将全精度模型的知识蒸馏给量化模型。动态多精度量化DPOQ方法训练的网络可以适配多种量化位宽,网络结构上高精度的网络会复用低精度网络的参数和中间结果,用户可以依据部署设备的计算能力改变网络量化精度而无需重新训练。·本文提出一种结构化比特剪枝的算法硬件架构(STP),在细粒度的比特层面继续探索量化冗余。软件算法上,通过指导性训练让网络参数更容易向拥有更少非零比特的值更新来提升比特稀疏度,并通过组的方式对计算进行结构化。硬件架构上,采用位串行乘累加器,在计算时通过跳过无效的乘零操作来提升推理效率,并且将多个位串行乘累加器组成交错处理单元来实现和并行乘累加器近似的吞吐量。在ImageNet数据集的ResNet18模型上,获得了 2.35倍的计算能效提升。·本文为了实现依据不同的输入图片动态改变量化精度,提出了两种不同粒度下的动态精度算法硬件架构,分别为逐样本动态精度(SWDP)和结构化区域动态量化(SDP)。SWDP采用了 DPOQ的网络结构并利用其多精度易切换特性,根据低精度网络的输出置信度判断输入样本难易程度,为不同样本分配合适的量化精度。SDP则是将量化后的数据拆分为高低两个部分,通过非零Top-K方法选择固定数量的重要部分数据用于计算以结构化方式减少运算量。硬件架构上,SDP实现了相应的处理单元以支持动态挑选运算数据,并设计了和脉动阵列偏移输出相适配的全流水Top-K硬件引擎用于识别特征图重要性。SDP和现有动态精度加速器相比获得了 29%的性能提升和51%的节能。
其他文献
作为红外探测系统最核心的部件,红外光电探测器的性能会对红外探测技术智能化、小型化、低成本、高性能的发展起到决定性的作用。自红外光电探测器概念提出以来,以碲镉汞、铟镓砷为代表的传统红外光电探测器在军事、安防、航天、国民经济等领域都发挥着重要的作用,随着人们对红外光电探测器需求的不断增长,大幅提高探测器的性能,降低探测器的尺寸、重量、功耗和价格迫在眉睫。传统的红外光电探测器在材料生长、制造工艺、性能、
学位
金属蛋白酶-7(MMP-7)是锌依赖性内肽酶家族中的重要成员,其参与细胞外基质中各种蛋白质的降解,且在白细胞浸润和组织炎症中也发挥重要作用。MMP-7在正常肝脏中不表达或很少表达,而在胆道闭锁中表达增强。研究发现MMP-7能够有效地鉴别胆道闭锁与其他胆汁淤积性疾病,对胆道闭锁的诊断有很高的敏感性和特异性,对胆道闭锁的肝衰竭和肝移植有一定的预测作用。因此,提高对MMP-7的认识,早期诊断胆道闭锁是当
期刊
<正>站在新风口,多地积极推出举措,抢抓发展机遇,加速布局智能网联汽车产业。作为汽车与人工智能、大数据、互联网等领域的高度集合体,车载智能系统产业肩负着推动制造业高端化、智能化、绿色化发展,助力制造业转型升级的重要使命。为释放车载智能系统产业高能级平台效应,充分发挥成都高新区作为成都软件产业核心策源地和主要承载区的资源优势,助力成都推进制造强市建设,近日,
期刊
给定目标动作描述(target motion)和目标外貌描述(target appearance)作为输入,人体视频生成旨在合成对应动作和外貌下的新视频。这种人为可控的高质量人体视频合成技术在娱乐短视频、影视制作、游戏等行业都具有广泛的应用前景。同时,合成的可控性意味着可以利用该技术创造出大量自定义的有标签人体视频数据,这对于现今数据量需求巨大的计算机视觉的其他领域,也具有重要的价值。近几年来,尽
学位
随着无线通信技术的发展,面向未来第六代(6G)移动通信技术的网络架构将变得庞大复杂,其支撑的无线业务呈爆炸式增长,现有的第五代(5G)移动通信技术将面临巨大挑战。近十年来,人工智能技术迎来了新一轮复兴和迅猛发展,吸引了几乎所有领域对其进行探索。利用人工智能技术解决无线通信领域的复杂需求,充分赋能未来6G移动通信技术已成为必然趋势。另外,深度学习作为人工智能领域的关键技术之一,凭借其强大的学习能力、
学位
紫外光源因其短波长属性在杀菌消毒、工业固化、芯片光刻等多个领域有着举足轻重的应用价值,但目前的商用紫外光源以汞灯为主,不仅体积大、能效低、响应速度慢,还因其脆弱易碎存在汞蒸气泄露的风险。相比汞灯,紫外发光二极管(Light-Emitting Diode,LED)有着体积小、寿命长、成本低、响应速度快且坚固环保的优势。然而,目前紫外LED存在诸多严重制约器件外量子效率的技术难题,包括:横磁场极化导致
学位
轨道角动量(Orbital Angular Momentum,OAM)作为电磁波的一项基本属性,反映了电磁波在空间中的相位特征。由于具有螺旋式的相位分布以及模态间的正交性,OAM波束在通信复用、雷达探测等领域已被证明具有独特的应用潜力。与此同时,由于可以实现灵活的波束重构与调控,波束赋形(Beamforming)技术也已得到了广泛的应用,而作为一组完备的本征模集合,OAM波束亦可实现基于电磁波本征
学位
本文主要包含以下三个部分:第一部分是利用一价铑/手性硫烯配体体系催化芳基硼酸对芳香邻二醛的不对称加成-串联内酯化反应,构建一系列手性3-芳基苯酞化合物;第二部分是基于手性[2.2.2]-双环骨架双烯配体的一价烯基铑卡宾对无保护吲哚等杂芳环的不对称C2-H、C3-H插入反应,构建一系列手性α,α-二芳基化合物;第三部分是利用手性双功能催化剂活化并诱导二价铜卡宾对一系列端炔化合物的不对称C-H插入-重
学位
报纸
报纸