面向深度神经网络模型的性能优化技术研究

被引量 : 0次 | 上传用户:baimeng1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络模型在计算机视觉、自然语言处理、语音识别等领域取得了令人瞩目的成果,推动了人工智能的发展。然而,为了处理日益复杂的智能任务,神经网络模型结构变得越来越深且越来越宽,其对应的参数量和计算量也在成倍增长,这对于神经网络模型的部署带来了巨大的挑战。大量的研究工作对神经网络模型的参数、结构、输入样本等进行了分析,尝试从不同的方向探索如何压缩模型的参数量以及减少模型执行的计算量。现有的深度神经网络模型性能优化方法进行模型优化时存在优化策略单一、优化效率不足、实际性能有限的问题。首先,现有优化方法往往采用单一的优化策略,比如考虑模型参数的剪枝策略,考虑输入样本难度的条件激活策略等,未有效结合不同的模型优化策略,充分利用各自的优势;其次,它们通常只关注最终的模型压缩和加速效果,比如设计精细的剪枝策略,而没有考虑优化效率,这导致优化过程存在耗时长的问题;最后,对于优化后的模型,已有的方法往往通过主流深度学习框架调用芯片厂商提供的算子库,在智能处理器上执行优化后的模型,但是,深度学习框架中隐藏了算子的底层实现细节以及智能处理器的底层硬件特性,用户很难从算子层面进一步提升神经网络模型在智能处理器上的实际性能。本文对面向深度神经网络模型的性能优化技术展开研究,主要包含以下三个方面的贡献:1)提出了一种有效结合不同模型优化策略的模型优化框架CondAFP。CondAFP综合考虑了基于条件激活的模型优化策略和基于剪枝的模型优化策略的原理,构造设计空间,通过基于遗传算法的设计空间探索自动搜索合理的配置参数,充分利用基于条件激活的模型优化策略和基于剪枝的模型优化策略二者的优势,从而在满足模型准确率需求的前提下,提升深度神经网络模型在智能设备上的实际性能。使用Res Net-20、Res Net-18等主流神经网络模型进行测试,结果表明,在模型准确率需求相同的情况下,CondAFP可以对原始神经网络模型在智能边缘设备上实现1.53倍的速度提升,能耗节省34.61%。2)提出了一种面向滤波器剪枝优化的掩码感知卷积计算方法MaskACC。MaskACC通过剪枝优化策略的掩码信息动态组织剪枝过程中权重和输入张量的有效通道和滤波器,避免与无效通道和滤波器相关的冗余计算,并且采用高效的GEMM卷积实现,加速了滤波器剪枝优化的前向传播过程和反向传播过程,从而提升神经网络模型优化的效率。使用主流神经网络模型Alex Net、VGG16,以及Res Net-18进行测试,结果表明,MaskACC可以对基于传统GEMM卷积的滤波器剪枝优化过程实现高达1.61倍的效率提升。3)提出了一种面向智能处理器的神经网络模型编程框架FlexPDA。在FlexPDA中,我们通过对神经网络模型的算法特性以及智能处理器的硬件特性进行分析和抽象,设计了一种领域特定的语言FlexPDA C,并且基于LLVM编译框架实现了硬件架构相关的编译优化方案。FlexPDA为用户提供了灵活的算子接口,以及并行、访存等系统优化方法。原始的深度神经网络经过模型优化后被转换为一个精简的神经网络模型,用户可以通过FlexPDA从算子层面进一步优化精简模型中的每个算子在智能处理器上的实际执行性能,从而实现神经网络模型在智能处理器上灵活且高效的部署。使用主流神经网络模型Alex Net进行测试,结果表明,FlexPDA可以对使用深度学习框架中的算子库实现的深度神经网络模型在智能处理器上实现高达1.62倍的性能提升。
其他文献
巡航速度大于5马赫的高超声速飞行器是现阶段航空航天领域的一个研究热点,其在民用领域和军用领域均存在着重大的应用潜力。同传统飞行器的适航能力不同,其可工作的飞行状态和环境较为局限,只能在特定的流场条件下表现出最佳的空气动力学特性。为了使高超声速飞行器能够在宽速域流场条件下具有良好的升阻比,更好的应对复杂、多样的飞行环境,国内外研究人员不断地探索宽速域高超声速飞行器的实现方法。目前高超声速变体飞行器的
学位
2020年新冠疫情爆发以来,人们在日常生活中,在室内度过的时间显著增加。室内的空气质量对人体健康的影响越来越大,已经引起了社会广泛的关注,人们迫切地需要一种完善的室内空气质量监测方案。针对目前室内空气质量监测技术落后,缺乏具有完整体系的解决方案等问题,本文基于边缘计算技术设计了一套云边协同的室内空气质量监测系统,可以实时高效地监测室内空气质量,并且具有通用性和拓展性,可以适配不同的室内环境,满足不
学位
随着近年来科技的不断发展,机器人技术和传感器技术的发展势头十分迅猛,使用机器人完成物流运输与协作运输的需求越来越高,然而单一化地搭载传感器的机器人已经无法完成一些协作搬运、合作运输等需要多个机器人共同完成的任务。各个国家都在不断研究多机器人共同完成任务的方式,也就是多机器人编队的问题。机器人的编队控制是多个机器人共同完成任务的前提,可以提高复杂合作任务的完成效率。针对未知环境下进行编队以及编队运动
学位
动力电池安全性和可靠性是国际前沿研究课题,它决定着新能源汽车的市场和未来。运行工况分析、状态估计、一致性维护、全生命期内安全监测是解决该问题的重要途径。频繁模式挖掘具有单次线性扫描、低时/空复杂度、实时响应、适应性强等特性,为动力电池全生命周期的安全评价和可靠性分析提供了独特的解决方案。本文以新能源电动汽车为研究对象,以提高电池组状态估计准确性、一致性维护的有效性为目标,利用频繁模式流挖掘技术,开
学位
多孔材料是在某种特定材料中含有大量的孔隙,并且所含孔隙是被用来达到所期待的性能指标。因为具有可焊接性、导电以及传热等优点,在航空航天、汽车、造船业、铁道业和建筑业等领域的应用越来越广泛。例如在航空航天中,常被用作轻质、传热的支撑;能焊接,黏胶或电镀到结构体上,可用作夹层承载结构;替代蜂窝结构,可以降低费用,并提高性能。截顶圆锥壳是火箭推进系统的主要构件之一,在航空航天、卫星和潜艇等领域也应用广泛。
学位
随着5G通信技术的普及,万物互联不再是一句口号。在整个物联网系统中,传感器设备扮演着举足轻重的角色,受到了广泛的关注和研究。同时,在光纤通信技术的推动下,光纤传感器技术应运而生并成为传感器领域的重要研究方向。光纤声音传感器作为一种先进的声信号敏感技术,其原理是将声音信号分别调制于光的强度、波长和相位等参数中。本文针对基于正交相位解调技术的正交法布里-珀罗(Fabry-Perot,FP)腔光纤声传感
学位
社会的发展和科技的进步对光电探测器的性能不断提出新的要求,例如高灵敏、快响应、低功耗和宽光谱等。为了满足这些要求,科研人员需要不断地寻找新的光电响应材料、构造新的器件结构和开发新的工艺技术。本论文基于碳纳米管和还原氧化石墨烯这两种具有宽谱光电探测能力的碳基薄膜上,制备并研究了“铯钨青铜纳米片修饰碳纳米管薄膜”和“金属/悬空还原氧化石墨烯薄膜/金属”两种薄膜型光电探测器的性能。(1)提出使用具有强红
学位
肝星状细胞在力学刺激下会被激活,而肝星状细胞的活化被认为是肝纤维化形成的关键所在,所以研究肝星状细胞的活化机制对于肝纤维化的预防和治疗都具有关键作用。由于肝星状细胞在体内会受到肝窦细胞以及实质细胞等施加的局部刺激,但现有力学刺激及测量方法均不能满足在施加力学刺激的同时对细胞响应进行测量。磁性微柱阵列由于可同时作为驱动器和传感器成为细胞力学中十分有利的工具,但现有制备方法均有不足,且尚无使用磁性微柱
学位
在光电子学中,伴随着能量释放的激子-激子湮灭是典型的非辐射复合现象。该现象会导致光致发光量子产率显著地下降,从而严重地降低了光电子器件的最大效率,所以在半导体制造中一般会对其进行严格抑制。近年来,科学家们提出了多种抑制方法,其中激光辐照法、引入缺陷法和施加应变法已经成为了抑制二维过渡金属硫族化合物中激子-激子湮灭的有效手段。然而,这是以损坏材料的原子结构为代价的,因此也限制了以上方法的实际应用。为
学位
随着风电行业的迅猛发展,同时也暴露出风电机组故障及不良运行状态等一些突出问题,这些问题影响了风力发电效率,并且造成了极大的经济损失。风电变桨轴承作为风电机组传动系统和影响风电发电效率的关键部件,是发生故障频率较高的部位,提高对变桨轴承的振动监测能力已迫在眉睫。加速度作为振动中重要的监测参数,可以判断设备的安全运行情况,利用加速度传感器可以很好地实现对变桨轴承的振动监测。随着应用场景的复杂性,现有的
学位