基于混合并行的深度卷积神经网络加速方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户：yilongzhanyuye1

【摘要】

：

【作者】

：

刘荣达

【机构】

：

西北农林科技大学

【出处】

：

西北农林科技大学

【发表日期】

：

2023年01期

【基金项目】

：

国家自然科学基金青年项目:基于线程级推测的非规则算法并行化研究（61602388）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,深度卷积神经网络（Deep Convolutional Neural Networks,DCNNs）在图像分类、语义分割和目标检测等计算机视觉领域中取得了巨大的进步。然而为了提高模型的泛化精度和质量,深度卷积神经网络模型的规模不断加深加宽,这使得模型的训练过程需要大量的时间和计算资源。现有的分布式并行加速训练方法主要有数据并行（Data Parallelism,DP）和模型并行（Model Parallelism,MP）,然而这些单一的并行方法受限于模型固有依赖和GPU显存限制,通信负载较高,并行收益有待进一步挖掘与提升。针对以上问题,本文提出了一种基于分组的混合并行训练方法（GroPipe）。通过整合数据并行和模型并行两种思想,充分发挥两种并行方法的优点,突破了单个GPU显存限制。利用依赖关系,动态挖掘模型运行时的并行性,通过计算与通信重叠思想有效平衡通信开销,从而加速大模型的训练过程,具体工作如下:（1）提出了一种基于组内流水线模型并行方法。针对大模型由于单GPU显存限制无法训练的难题,本文将单GPU扩展到多GPU,使用流水线模型并行方法进行高效训练。首先,提出一种模型自动划分算法,将大模型按层自动划分为多个分区,每个分区的模型放置在不同的GPU设备上。然后,将mini-batch更细一步划分为多个micro-batch数据,将其依次输入到各个分区中。接着,分析流水线并行前反向传播中各个micro-batch与各个分区之间的依赖关系,构建依赖算子,添加到模型的计算图中。最后,设计一种流水线模型并行调度算法,以流水线方式并行执行前反向传播中的各任务,充分利用各GPU算力资源,提高GPU利用率。（2）提出了一种基于组间数据并行方法。针对现有模型训练并行度有限问题,在组间引入数据并行思想和通信优化策略来进一步增加模型训练的并行度,加快模型训练速度。首先,对传统数据并行方法进行扩展,每个分组通过聚合多GPU加载模型,独立地进行组间数据并行的迭代训练。然后,提出了一种基于分区的延迟通信策略,用于深度卷积神经网络反向传播过程中的梯度张量同步,有效减少梯度张量碎片化,提高带宽利用率,实现反向传播计算与梯度同步的重叠。最后,为了进一步加速模型的收敛速度,提出了一种基于余弦和线性混合学习率衰减策略。本文所提的GroPipe是基于PyTorch框架实现的,所有实验均是在配有8个GPU的服务器进行的。实验结果表明,本文提出GroPipe方法在不损失Top-1精度的情况下有效加速神经网络的训练,与主流的DP和torchgpipe方法相比,GroPipe在Res Net-50上加速比性能分别提高了59.6%和14.3%;在VGG-16模型上加速比性能分别提高了111.2%和30.9%。综上,所提出的GroPipe可以在大模型训练中取得有效的性能提升,在学术界和工业界具有广泛的应用前景和实际意义。

其他文献

无人机辅助的物联网信息年龄优化方法研究

传统物联网中,物联网设备通过感知环境生成感知数据,并传回数据中心进行处理。但是物联网设备的电池容量有限,这极大地限制了其传输功率和覆盖范围,从根本上影响了数据的及时交付,降低了数据的新鲜度。近年来,无人机凭借高灵活性和低部署成本等特点,被广泛用于辅助物联网进行数据采集,以满足实时应用的时效性需求。然而,在实际物联网系统中,物联网设备的数据生成具有一定随机性,且无人机的可用电量有限。因此,如何在无法

学位

针刺联合麻仁软胶囊治疗中风后便秘临床观察

目的：观察针刺联合麻仁软胶囊治疗中风后便秘的临床疗效。方法：60例用随机数字表法分为观察组和对照组各30例。两组均口服麻仁软胶囊治疗，观察组加用针刺治疗。结果：主要症状观察组总有效率高于对照组（P＜0.05），便秘伴随症状观察组总有效率高于对照组（P＜0.05），首次排便时间观察组早于对照组（P＜0.05）。结论：针刺联合麻仁软胶囊治疗中风后便秘疗效较好。

期刊

基于一致性提升运算素养——以“分数除以整数”的教学为例

《义务教育课程方案和课程标准（2022年版）》中多次提出要感悟运算的一致性，强调运算的一致性不仅有利于学生整体把握学习内容的主线，主动架构知识框架，还有利于学生知识迁移、内化方法，自主提升运算素养。文章以“分数除以整数”的教学为例，探究感悟运算一致性的落实策略，即从算式到图形，数形结合感悟算理；从特殊到一般，激发认知冲突，厘清运算本质；从旧知到新知，对比内化打通算法。

期刊

动态标靶位姿的高精度实时计测方法

视觉位姿测量技术是目前使用较为广泛的运动参数测量方法,其具有较高的测量精度,并且能够适用于运动速度快、运动范围大的待测目标和复杂多变的测量环境。目前,相关方面的研究主要集中在视觉测量模型建立、标靶的设计以及摄像机标定三个方面。本文在对现有视觉测量模型进行分析的基础上,提出了一种基于单目视觉的位姿测量模型,并对摄像机的标定方法进行了探究。主要工作内容如下:（1）单目视觉位姿测量模型的搭建。目前,常用

学位

基于轻量化神经网络的羊脸识别方法研究

监控设备已成为羊场的基本设施,基于计算机视觉技术检测羊脸,进而识别不同羊只,成为智慧养殖领域智能识别的解决方案之一。本研究以现有动物检测识别模型体积较大,缺少轻量化模型研究工作为研究背景,以奶山羊和滩羊为研究对象。利用摄像头得到的实时视频流数据,展开视频羊脸识别工作。首先通过羊脸检测模型标记羊脸区域,然后通过羊脸识别模型实现个体分类识别,得到一个可行有效的实时视频监控下的羊脸识别方法。针对羊脸相似

学位

基于Shapley值的数据融合反欺骗研究及应用

在多源信息融合过程中,错误信息或欺骗信息管理是一个重要问题。欺骗证据的存在可能对最后融合结果造成极大隐患,如何识别欺骗证据是反欺骗信息融合的关键。本文尝试使用合作博弈理论中Shapley值思想,基于证据距离对融合系统异常的“边际贡献”得出所有基本概率指派函数（Basic Probability Assignment,BPA）组合的协作收益值,进而对信息融合中是否存在欺骗证据进行有效判定。在此基础上

学位

从电影叙事到电影叙事学

从电影发展史看，叙事曾挽救了新生的电影，让电影成为伟大的第七艺术。电影可以叙事，并且主流电影大多讲述故事，这对于观众是不言而喻的常识，为什么却成为电影叙事学家必须论证并解决的基本问题？本文论述作为一门科学的电影叙事学如何从学理上阐明电影与叙事、电影与叙述者、演示和叙述之间错综复杂的关系，并论述从结构主义经典叙事学向后经典叙事学研究的转向。面对数字时代出现的各种新的叙事现象，采取类似“叙事学+”的研

期刊

基于不完全图像的人脸识别和表情检测技术研究

人工智能的发展已经被提升到国家战略高度,第三次工业革命的浪潮已经袭来。人工智能想要更好地与人打交道实现人机交互,亦或是帮助人类在医疗、公共安全、远程教育等领域实现更高智能化,在人脸识别和表情检测方面的研究尤为重要。2021年作为新冠病毒全球大流行之后的人类发展的元年,人们的社交距离普遍增大,佩戴口罩成为一道靓丽风景线。多种人脸遮挡的现实场景给相关识别任务的研究和发展带来了机遇和挑战,现实意义非凡。

学位

基于双色镜的高功率光纤激光光束合成技术研究

受限于光纤激光器热效应、非线性效应、模式不稳定、光纤端面损伤等因素,单根光纤激光输出功率存在理论极限,对多束激光进行合成是提升激光亮度、功率的有效技术途径。本文以基于双色镜的光谱合成技术作为研究对象,开展系统的理论和实验研究,旨在通过提高单路输出功率、增加合成路数,实现高功率、高光束质量近单模激光输出。1、介绍了光谱合成技术的应用背景,总结了国内外利用双色镜开展实验研究的发展现状,指出了基于双色镜

学位

基于力旋量补偿的四足机器人多步态运动模型预测控制研究

对于腿足动物来说,步态和运动的速度以及周边的地形环境是紧密联系在一起的,因为在某一范围内的速度选择合适的步态能够最大限度的减小机体的能耗,同时选择合适的步态能够通过相应的地形环境,这些对于动物来说是十分重要的,而这也同样适用于腿足式机器人。其次是对于四足机器人的多步态运动控制而言,如果能在统一的控制框架下实现多种步态运动控制的目的,这不仅能够简化控制程序,同时还增强了控制方法的统一性和适用性,因此

学位

基于混合并行的深度卷积神经网络加速方法研究

与本文相关的学术论文