异构集群中的分布式训练优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ARMYUN1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习被广泛应用于图像处理、自然语言处理等各种领域,其成功源于大数据、算法模型和计算能力的共同发展。为了提高深度学习模型的普适性,数据集和模型规模不断增长,训练所需的时间也随之增加,对计算能力产生了更高的需求。为了提高计算能力,缩短训练时间,近年来开始在集群上进行分布式训练,将原来单机上的训练过程分布到多个机器上并行执行。现有流行的深度学习系统如Tensorflow、MXNet等都支持分布式训练,但是它们都只适用于各个节点计算性能相似的同构集群,而在实际生产中会存在一些因节点硬件性能不同或者多作业资源竞争导致的异构集群,在这些异构集群中进行分布式训练时,不同的工作节点(worker)的迭代速度不同,若采用现有分布式深度学习系统中常用的同步并行(BSP)或异步并行(ASP)的分布式SGD(Stochastic Gradient Descent)算法,每次迭代过程中慢工作节点都会因同步等待或参数过时的影响拖慢整体训练速度,为此本文针对异构集群中问题对分布式训练过程进行优化,主要工作如下:(1)本文对现有分布式深度学习系统通常采用的BSP和ASP算法以及几种分布式SGD变体在异构集群中分布式训练时存在的问题进行了分析,在此基础上提出了基于工作节点运行时状态的自适应k-syn/asyn SGD算法。对于同步的k-syn SGD算法,根据各个工作节点的每次迭代的完成时间控制参数服务器每次迭代聚合梯度的数量(即k值),以最大化系统吞吐率。对于异步的k-asyn SGD算法,根据工作节点的参数版本灵活控制全局参数更新的时机,使系统保持较高吞吐率的同时控制参数过时的影响,减小收敛时间。(2)为了进一步提高异构集群中的分布式训练效率,本文在自适应k-syn/asyn SGD的基础上提出了基于工作节点性能的批大小(batch size)分配算法,通过循环神经网络GRU(Gated Recurrent Unit)和指数平均法预测各个工作节点的计算速度并分配与之对应的批大小,以尽量减小工作节点迭代时间的差距,从而消除慢工作节点的影响。(3)我们基于Tensorflow实现了本文所提出的方法,然后在同构集群以及人工模拟的硬件异构集群和多作业资源竞争异构集群上对我们的自适应k-syn/asyn SGD算法和批大小分配算法的分布式训练性能进行了测试和分析,实验结果表明相比BSP和ASP我们的方法显著地提高了系统在异构集群中的分布式训练性能。
其他文献
航管二次雷达作为民用航空重要的监视工具之一,在保障民航飞行安全中扮演着重要角色,不仅能保障航班的正常运行,同时也丰富了管制指挥手段。近年来,我国的民航事业发展迅速,
目前,过渡金属氧化物作为优良的锂离子电池负极替代材料被广泛研究。在过渡金属氧化物体系中,Zn Fe2O4具有较高的理论比容量(1000.5 mAh g-1),价格低廉,含量丰富,对环境无毒
一、概述毛霉菌病(Mucormycosis),是一种由毛霉菌目真菌所致的疾病,也是一种威胁生命的条件致病性真菌感染。毛霉病是一种相对少见的真菌病。一项基于人群的研究提示,在美国,
会议
在信息时代,不同语言的人们之间进行跨语言的交流也会越来越频繁。传统的人工翻译由于其翻译效率等问题,已经逐渐满足不了当前人们的翻译要求。由于机器翻译具有一定的高效性
随着化石能源的过度利用和环境污染的不断恶化,人类社会迫切需要可持续、清洁的能源来满足不断增长的能源消耗和环境保护需求,使用可再生能源的趋势在最近几年中显著上升。在
目的探讨熵理论在过劳性脏腑功能耗竭研究中的应用。方法从系统熵涨落理论角度研究过劳性脏腑功能耗竭发生、发展、变化规律。结果过劳作为熵在人体变化信号,正是反映人体体
会议
电致化学发光(ECL)分析技术因具有背景信号低、灵敏度高、选择性好等优点,已被广泛用于生物传感领域。然而,为满足临床诊断中对低含量目标物,特别是对复杂样品中低丰度生物标志
徐XX,男,4岁主诉:多颗乳牙牙龈化脓求治现病史:患儿母亲述"患儿乳牙迟萌,牙龈脓肿,乳牙早脱落,近来进食有酸痛感",遂求治。系统疾病史:1年前于外院诊断为"佝偻病",服用"羧甲
信息时代的急速发展使得人们在互联网上存储及运用的文本数据规模急剧增加。为了从海量的文本中发现目标信息,信息抽取技术应运而生。作为信息抽取领域重要的研究课题,针对实
网络传播动力学研究包括传染病在群体间的传播、计算机病毒在网络上的传播、谣言在社交网络中传播等多种信息的传播及其传播动力学等问题。一般来讲,研究基于各种网络的传播行为一般是基于均匀介质网络及复杂网络进行的,这也是近年来人们在社会经济活动中最为密切关注的一个主题。本文主要是利用最优控制理论来探讨两类典型的网络传播动力学行为:(1)谣言传播谣言是社会交流的一种重要形式,谣言传播在人类事务中扮演着重要角色