高能效深度神经网络加速芯片设计与研究

被引量 : 0次 | 上传用户:manuka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能迎来了第三次发展浪潮,以深度神经网络技术为核心的人工智能成为引领新一轮科技革命和产业变革的战略性技术。结合5G,物联网,大数据等技术,人工智能技术已经在生产生活中发挥着越来越重要的作用。现阶段人工智能计算通常利用服务器集群在云端完成。为了降低数据通信功耗及延迟,提升数据安全性,降低人工智能服务成本,学术界提出了微型机器学习(Tiny ML)的概念,即在物联网终端设备上部署高性能的人工智能算法。然而现有的物联网终端设备计算能力弱,存储资源有限,且面临严苛的功耗限制,难以满足复杂度较高的人工智能计算需求。针对这一问题,本文通过算法和电路协同优化,提出了“无外存计算”的感知计算框架。通过算法优化以充分压缩模型尺寸,实现整个计算过程的存储访问都在片内完成,从而彻底消除由片外访存带来的巨大功耗和延迟,提升系统能效。在此基础上,本文提出了与算法模型适配的高效片上加速架构,设计了可配置的数据通路和分离结构的神经操作加速电路,以实现计算效率和通用性之间的平衡。具体而言,在微型深度神经网络模型研究方面,本文提出了:(1)基于线性可分离模块和密度连接线性可分离模块的微型神经网络模型Etiny Net。从稀疏编码理论出发,线性可分离模块通过去除掉通道卷积后的非线性层构建具有正交特性的字典卷积,以提高参数效率。另外,Etiny Net通过引入密度连接提高模型等效宽度,以减少通道数,使得模型具有更小的中间特征图尺寸。实验结果表明,Etiny Net运行时仅占用片上存储空间797KB,且在Image Net数据集上获得了66.6%的Top-1分类精度。(2)自适应尺度参数量化方法。针对所提出的EtinyNet,本文进一步研究了int4参数量化方法,以解决现有int4参数量化方法在微型网络模型上性能退化严重的问题。本文所提出的自适应尺度参数量化方法通过引入尺度重整因子,可在模型训练过程中自动调节参数分布,平衡量化误差和参数信息熵,避免量化大量丢失信息。实验结果表明,该方法进一步缩减了Etiny Net的参数量,使得运行时所消耗片上总存储空间降低至441KB,且达到了57%的Image Net分类精度。(3)多尺度规范化特征的知识蒸馏方法。针对参数量急剧压缩引起的微型模型精度损失,本文从噪声理论和多尺度特征出发,研究了特征范数和标签噪声之间的关系,提出基于多尺度规范化特征消除标签噪声影响的知识蒸馏方法,以提升模型精度。较之标准的知识蒸馏方法,本文提出的知识蒸馏方法可在微型模型上能够获得更高的精度提升,从而使int4量化的Etiny Net在Image Net上分类精度提升至60.6%。针对微型神经网络模型EtinyNet,本文研究了基于指令集架构的硬件加速器芯片Tiny NPU。为提高该芯片的通用性和执行效率,本文提出了:1)面向微型神经网络模型的精简指令集。该指令集涵盖多种重要的基本神经操作,可用以支持大部分主流的视觉神经网络模型;2)分离结构的乘累加阵列及滑窗卷积电路,高效支持神经网络中计算量最大的卷积和通道卷积运算;3)可配置列主序布局和交错布局的数据通路及布局转换电路。动态调节片上特征图存储布局(数据在存储器中的排布),以满足不同并行运算模式的需求,使处理单元能够发挥出最大效率。基于所提出的芯片和算法模型,本文进行了FPGA原型系统验证以及ASIC实现。实验测试结果表明芯片能够在73.6m W的功耗水平上获得180FPS的吞吐率,处理能效高达441.2 Frame/s/m J。本文还进一步实现了更加紧凑的加速器电路设计,探索了资源消耗的极限,首次利用FPGA在毫瓦级别的功耗水平下,获得了大于100FPS的吞吐率和大于60%的Image Net分类正确率。最后,本文利用所研制的芯片和MCU构建了极低功耗的Tiny ML系统,能够完成目标检测、姿态估计、精细分类等多种典型AI任务,且在160m W的系统功耗下实现了30FPS的实时处理。本文所提出的算法和加速芯片有力推进了Tiny ML的研究进展,具有很高的学术及实用价值。
其他文献
基于宝武集团上海转底炉生产工艺,开发出两种新型复合粘结剂,在基础试验基础上进行了中试试验,结果表明:复合粘结剂YX-1#和YX-2#添加量为2.8%,生产工艺控制含锌粉尘含水率13.5%,压球机压力20 MPa,转速8 r·min-1,球团指标与常规淀粉粘结剂XC-1#添加量3.3%时相当,抗压强度大于180 N,可满足转底炉生产需求,采用复合粘结剂可降低转底炉粘结剂成本20%以上,同时有降低返料
期刊
作为俄罗斯最杰出的先锋派作曲家,爱迪生·杰尼索夫(Edison Denisov1929-1996)以其独特的音乐语言及创作风格将二十世纪后半叶俄罗斯音乐推向崭新的高度。虽然二十世纪的音乐创作领域流派众多、纷繁复杂,但是,杰尼索夫不盲目追寻各种颠覆性、革命性的创作技法,却将自己的作品深植于传统音乐中,尤其是俄罗斯作曲家的音乐,如:普罗科菲耶夫、肖斯塔科维奇、斯克里亚宾以及法国印象派作曲家德彪西的作品
学位
当今社会,以化石燃料为代表的传统能源面临着资源枯竭、环境污染、生态恶化等一系列现实难题,寻找一种绿色的可再生清洁能源迫在眉睫。植物生物质资源具有可再生、污染小、分布广泛、储备丰富等优势,可用于新一代燃料乙醇的生产,是化石燃料的最佳替代品之一。在植物生物质的利用过程中发现,木质素结构复杂且不易降解,严重阻碍了纤维素资源的开发,大大降低了能源的生产效率。因此,木质素的降解成为提高生物质资源价值的重要途
学位
目的观察电针联合揿针治疗单纯性肥胖病的临床疗效及对血清肠淋巴管功能相关因子的影响,探讨该疗法是否可以通过对血管内皮生长因子C/血管内皮生长因子受体-3(VEGF-C/VEGFR-3)信号通路的调节,抑制淋巴管新生、改善肠道淋巴管功能而治疗单纯性肥胖病,为临床治疗该病提供科学理论依据。方法临床研究:采用随机数字表法将1 16例单纯性肥胖病患者随机分为观察组(电针联合揿针)和对照组(电针),每次治疗3
学位
由于受到气候、地貌、下垫面等多种因素的影响,水文过程具有不确定性的统计规律,同时,受限于人类对水文规律的认知水平,水文模型在构建过程中也具有一定的不确定性。因此,采用水文模型进行径流模拟时不可避免地存在着来自模型输入、模型参数和模型结构的不确定性,而这种不确定性对于缺少观测站点的干旱地区更加明显。构建不确定性估算方法、识别径流模拟的不确定性来源,有助于提高水文模拟的精度,从而为深入认识流域水文要素
学位
以含锌废盐酸为原料制备磷酸锌[Zn3(PO4)2],探讨含锌废盐酸中Zn、Fe、Cr、Ni等重金属质量分数、TOC质量浓度、磷酸体积分数和反应时间等典型因素对Zn3(PO4)2纯度及化学组成结构的影响,并用XRD及SEM表征Zn3(PO4)2的物相结构。结果表明,含锌废盐酸可制备纯度较高、结构较为稳定的Zn3(PO4)2产品,制备过程中废盐酸中的Fe对Zn3(PO4)2产出纯度的影响较大;Zn3(
期刊
针对公共安全问题的快速增长,监控设备不断增多,传统的视频监控系统难以从海量数据中及时捕获异常信息,因此智能视频监控系统应运而生。异常行为检测技术作为该系统的核心技术之一,通过借助计算机强大的数据分析能力实现异常行为实时检测并显示预警信号,避免发生重大安全事故,现已成为公共安全领域的一个研究热点。现实监控场景中,异常行为相比正常行为而言,是稀疏的、抽象的和不可预测的。其次,同一行为在不同监控场景下其
学位
随着筑坝技术水平的提升,水利工程建设逐渐向海拔较高、环境条件复杂的西北地区转移。然而该区域常年低温、低湿的气候条件,给水工混凝土建筑物的施工和运行带来严峻挑战。主要问题体现在:低温低湿养护条件对水工混凝土孔隙变化过程的影响规律不明晰;水工混凝土建筑物在实际运行中,会受到环境条件和外荷载的双重影响,孔隙结构与混凝土性能之间的关系不明确;水工混凝土非均质模型没有考虑实际环境条件对其参数的影响。完善上述
学位
复杂的生产过程使得织造车间成为了管理上的“黑盒子”,作为生产管理智能化的核心决策功能,排产的优劣直接影响织造车间生产效率、产品品质与生产成本,传统的经验式计划生产模式己经无法适应市场需求的变化。在车间生产规划与调度问题上虽已有大量的学术研究,但由于织造排产中存在经纱拼缸、经纱准备工序中整经与浆纱间的批调度关系、织造工序与穿经工序间的逆工序调度关系,织造工序中的多织轴、多设备、多产品的大规模调度这些
学位
随着社会经济的高速发展,水利工程作为现阶段重要的基础工程,其规模与数量均呈明显上升趋势,这给工程质量检测提出更高要求。为把握水利工程质量无损检测要点,保证水利工程后续运营的安全效率,以黄家湾水利枢纽工程的抗滑桩质量检测为例,引入实际工程项目,深入研究无损检测技术在工程质量检测中的应用要点,总结技术使用关键,并根据检测结果判断技术应用可行性,以期为相关工作人员提供有效参考。
期刊