面向分布式机器学习的数据中心网络资源配置和传输优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaocai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决日益庞大的数据集与参数量而带来的机器学习训练耗时过长的问题,分布式机器学习(Distributed Machine Learning,DML)成为加速机器学习模型训练的重要手段之一。DML在进行参数同步时需要多个主机间频繁的网络通信。然而,应用在DML网络传输中的远程直接存取技术(Remote Direct Memory Access,RDMA)并不能很好地支持DML同步时的网络传输特性。本文将由此出发,设计面向DML的网络传输优化。首先,为了解决因网络多瓶颈问题而产生的慢流滞后DML同步进程问题,本文提出了平衡完成时间协议(Balanced Completion Time Protocol,BCTP)。BCTP协议由网络节点记录维护数据流的传输状态,根据网络状态和流的传输状态进行速率的分配,采用了李亚普若夫优化进行分配速率的求解,并由服务器进行速率的调控。在此基础上,本文还设计了BCTP-NIC、BCTP-Switch和BCTP-Hybrid以满足不同的网络设备部署BCTP协议的需求。仿真实验结果表明BCTP能够实现高达20%-45%的DML同步网络通信开销减少。更进一步地,本文还提出采用Multicast加速DML同步的方案,该方案解决了DML同步时网络的冗余传输问题。Multicast以链路最少占用原则生成组播树,将数据包到达率和网络状态作为Multicast流速率分配的依据,通过拉格朗日乘子法进行分配速率的求解。实验结果表明,Multicast能够实现All-Reduce同步下2-4倍的通信加速,参数服务器同步下高达节点倍数的加速。其次,为了解决工作节点串行执行计算与传输任务而引起的计算和网络资源利用率低下的问题,本文提出了分组延迟异步并行模型(Group Stale Synchronous Parallel,GSSP)。GSSP以DML的计算时间和传输时间作为时隙设定的标准,并根据时隙大小进行工作节点的分组。GSSP在组内采用整体同步并行,组间采用延迟异步并行,并在组间通过轮询的策略减少网络带宽的竞争。通过分析GSSP的后悔约束发现,在选择恰当的分组大小时GSSP拥有较快的收敛速度。而实验结果表明GSSP拥有更高的网络资源利用率。
其他文献
岩石破坏前声发射相对平静期普遍被认为是岩石破坏的一个重要前兆特征,揭示岩石声发射相对平静期机理具有重要的理论价值和现实意义。为充分认识岩石材料破坏过程中声发射参
近些年来,随着人们生活水平的提高,科技的进步,导航定位相关技术逐渐由航天军工走进人们的生活。原来关于导航定位的研究主要针对全球定位系统(GPS)和高精度惯性测量单元等主
露头作为在地质作用下直接暴露的地质体,因其直观、完整、精确、易于研究以及可检验的特性,深受地质工作者的青睐。露头类比是以露头储层为主体,综合地下储层信息的一种新的
本论文主要包括以下三个方面的研究内容。一:特殊烯烃的性质及反应研究现状第一章系统地介绍了三类常见的特殊烯烃:富电子烯烃、贫电子烯烃和张力烯烃,并分别阐述了它们的常
二噻吩乙烯分子开关由于具有良好的热稳定性、抗疲劳性及快速响应等优点,在实际生活中具有广阔的应用前景。含有多个二噻吩乙烯结构的化合物体系能发生多重关环反应并呈现出
当前,业界普遍认为岩石内部晶体颗粒大小是影响岩石声发射(AE)特性的一重要因素,但由于一般原岩都历经了长时间的地质构造作用,且所处的条件一般也很复杂,使得原岩内部晶体颗
时空序列数据即在每个时刻记录的数据都为图像,具有空间信息。对此类数据的预测也称为视频预测,即根据视频的已知帧序列对未来帧进行预测。时空序列预测在机器人、自动驾驶、
将机器人技术应用于医疗辅助作业具有手术定位精准、可以实现远程操控、微创化、智能化等诸多优点,已经逐渐成为机器人领域的研究热点。在医疗辅助机器人的研发设计中,首先需
随着计算机技术的发展,无人驾驶已成为当下研究的热点技术之一。随着深度学习与计算机视觉算法的快速发展,无人驾驶的智能程度得到了极大的提高,使无人驾驶利用低成本的图像
在工业领域,服务领域,医疗领域以及搜救领域,机器人都有着广泛的应用前景。机器人可以代替人类去完成一些枯燥的、危险性极大的甚至是一些人类不可能完成的任务。虽然机器人