分布式深度学习系统中高效参数通信技术的研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bobo20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来以神经网络为基础的人工智能技术在学术界和工业界得到了广泛应用和发展。随着神经网络模型和训练所需数据量的不断增加,使得单机训练神经网络越来越困难。分布式训练神经网络不仅可以极大减少训练时间,也可对某些单机情况下无法训练的神经网络进行训练。在可预见的未来,分布式训练神经网络将成为必然选择。如何提高分布式训练神经网络的效率和可扩展性则显得尤为重要。本文针对这一问题提出低精度分布式更新算法LPDU,将原始浮点数梯度转换为低精度数据进行传输,减少同步时间开销,进而提升分布式训练效率,通过混合精度更新算法,保证训练精度。本文通过分析LPDU算法各部分的时间开销和神经网络的参数规模得出LPDU算法在特定神经网络训练中的理论性能提升,并通过实验加以验证。通过对比LPDU算法与原始更新算法在图像分类,目标检测任务的相关实验结果,证明了 LPDU算法在图像分类与目标检测任务中均能达到与原始更新算法相同的理想精度。同时对分布式训练性能有一定提升。在8节点情况下,Resnet50的训练效率由原始的84.05%提升到了 87.15%,VGG网络的训练效率相对于原始的79.42%提升至了 86.55%,SSD网络相对于原始效率有4.83%的提升。基于LPDU算法减少梯度尾数位的思路,以及分类网络和物体检测网络对梯度数据精度要求不同的特点,本文针对分类网和物体检测网络提出了三种极限精度梯度压缩方法EPGC:适用于分类网络的9比特梯度压缩方法和8比特梯度压缩方法,适用于物体检测网络的1 1比特梯度压缩方法。9比特梯度压缩方法是在浮点数基础上去除所有尾数位,仅使用1个符号位和8个指数位表示梯度;8比特梯度压缩方法是在半精度浮点数基础上去除8位尾数位,使用1个符号位,5个指数位和2个尾数位表示梯度;11比特梯度压缩方法是在半精度浮点数基础上去除5位尾数位,使用1个符号位,5个指数位和5个尾数位表示梯度。为快速验证本文提出的梯度压缩方法的可行性,本文通过在原始浮点数或半精度浮点数基础上对特定尾数位置零的方式模拟这三种压缩方法。通过实验证明这三种梯度压缩算法均能保证神经网络在对应任务中的训练精度,说明通过这三种梯度压缩算法提升分布式系统的可扩展性和训练效率的可行性。
其他文献
长期以来,员工越轨行为被视为一种对组织有害的行为,应该予以消除或减少。然而,研究表明,在亲社会动机的驱动下,员工也会做出对组织有益的建设性越轨行为。近些年来,围绕着建
对AH32钢T型试件进行疲劳试验,并利用有限元软件对T型焊接接头的应力分布及疲劳寿命进行数值模拟,最终将疲劳试验结果与数值模拟结果对比分析。研究发现,T型焊接接头在焊趾附
专门用途英语ESP是英语语言教学领域的一门新的分支学科。本文旨在说明如何运用专门用途英语课程设计理论为西安导游设计英语培训课程以满足其工作需要。在分析学员学习需求
自工业革命以来,煤炭、石油等化石燃料使用以及森林砍伐、过度放牧等人类活动,导致全球CO2浓度大幅增加。海洋作为地球最大的碳汇,吸收了30%以上人类排放的CO2量,已造成海水p
机械手是机械设备重要的工作部件。文中介绍了一种新型的、能够可靠抱紧的机械手。该抱紧机械手采用了柔性摩擦带和独立液压系统,并使各个部件按次序独立运动,从而实现了抱紧
随着大数据时代的到来,机器学习模型规模变得越来越大,随机梯度下降(Stochastic Gradient Descent,SGD)算法及其分布式并行变体成为大规模机器学习任务的主要优化算法。虽然
目的:明确天然角蛋白反应性B细胞的亚群及解剖定位,初步分析其分泌天然抗角蛋白自身抗体(anti-keratinautoantibody,AKautoAb)的能力。方法:取SPF级C57BL/6小鼠的脾细胞和腹
目的探讨胎儿胆囊异常的产前超声诊断特点和临床意义。方法回顾分析2008年1月至2012年12月中晚孕来我院行超声检查的23 560例孕妇胆囊异常情况、随访胎儿染色体及产后胆囊情
文章以一所地方应用型本科院校的大学英语课程改革为例,通过问卷调查研讨该校大学英语学习现状及大学英语后续课程改革。文章对1629名一年级下学期学生的英语学习现状及对后
谈职校德育工作●李仁勇范辉林党的十四届六中全会《关于加强社会主义精神文明建设若干重要问题的决议》中指出,“加强青少年思想道德教育,是关系国家命运的大事。要帮助青少年