面向分布式深度学习的集群资源调度优化技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习(Deep Learning)技术的发展,神经网络模型变得复杂,模型训练耗时,对计算资源的需求量很大,亟需高效利用计算资源,加快模型训练过程。常用深度学习框架(如Tensor Flow、Py Torch等)支持在集群中使用多GPU分布式并行训练模型,通用集群调度器对分布式深度学习作业的支持不足,导致模型训练效率不高,同时集群资源利用率较低。现有针对分布式深度学习作业的调度研究工作在进行资源分配(确定任务个数及各任务的资源量)时未考虑任务放置(在具体的机器上执行各任务)带来的影响。事实上对给定资源量的任务如果放置在不同机器上执行,由于机器异构和运行阶段作业之间的干扰,任务执行效率会存在差异,使得任务放置对资源分配的影响不能被体现出来。为解决以上问题,本文首先根据参数服务器架构的分布式深度学习作业的迭代特性,利用神经网络构建一个预测分布式深度学习作业的训练速度的模型,该模型能够预测在不同作业配置(资源分配和任务放置)和作业间干扰情况下分布式深度学习作业的训练速度。根据参数服务器的内存特性,建立一个通用的参数服务器内存预测模型,预测参数服务器的内存占用量。然后提出一种面向分布式深度学习的动态资源调度方法,利用速度预测模型指导作业配置的生成,利用参数服务器内存预测模型指导参数服务器的内存分配,将资源分配和任务放置结合,优化平均作业完成时间并提高资源利用率。具体工作包括:1.根据分布式深度学习作业训练过程的迭代特性,利用作业在集群中执行时的历史数据,使用深度神经网络(Deep Neural Network)构建一个速度预测模型,预测分布式深度学习作业的训练速度,确定作业的训练速度与作业配置和作业间干扰信息之间的关系。2.根据作业执行时的内存使用数据,分析参数服务器的内存开销与神经网络模型大小、计算节点数目之间的关系,建立了一个通用的参数服务器内存预测模型。利用该模型动态调整分配给参数服务器的内存量,提高集群内存利用率。3.设计了一种面向分布式深度学习的动态资源调度方法,通过速度预测模型预测作业在不同作业配置下的训练速度,动态调整作业配置,并利用参数服务器内存预测模型指导参数服务器的内存分配,将资源分配和任务放置结合,优化平均作业完成时间并提升集群资源利用率。4.基于Kubernetes系统实现定制的调度器原型,并使用到达时间服从泊松分布的作业trace对调度算法进行了验证,结果显示了本文提出的方法对比相关研究工作可以缩短分布式深度学习作业的训练时间,同时提高集群资源利用率。
其他文献
水稻草状矮化病毒(Rice grassy stunt virus,RGSV)是纤细病毒属(Tenuivirus)的成员,由介体昆虫褐飞虱(Nilaparvatalugens)以持久增值型方式传播。水稻草状矮化病是1963年在菲
近几年,一种具有空间变化相关特性的非均匀相关激光波束在传输过程中具有一些新颖的传输特性,而当激光波束在海水中传输时,海洋湍流是一个重要的影响因素,由于海水对蓝绿激光
水声传感网络(Underwater Acoustic Sensor Network,UWASN)在当前海洋研究开发领域具有广阔的应用前景,媒体接入控制(Medium Access Control,MAC)协议能够解决网络中各节点信
丝状真菌稻瘟病菌是引起水稻稻瘟病的病原菌,同时也是研究植物病原真菌的一种模式生物。Rab蛋白家族是Ras超家族中的一个小GTP酶亚家族,以GTP激活态和GDP失活态的循环形式作
河南省地处中原,人口基数庞大,是中国重要的农业大省。每年为中国各地源源不断地输出大量劳动力,是祖国建设和发展的一股重要力量。人是发展之根本,人们身体素质的强弱、健康
工业冶炼烟气中汞主要以气态单质汞(Hg0)、氧化态的二价汞(Hg2+)和颗粒态的汞(Hgp)的物种类型留存。气体单质汞不仅是锌冶炼烟气中汞的主要形式,同时它也成为治理有色金属冶金烟
目的:本课题旨在研究补脾肾活血方,对脾肾两虚夹瘀证的CKDⅢ-Ⅳ期患者的临床疗效。分别于治疗前后观察患者氧化应激及微炎症状态指标的变化,同时进行中医证候评分、肾功能及安全性指标进行评估,进一步评估CKD患者体内氧化应激及微炎症状态与病情发展的关系,为治疗CKDⅢ-Ⅳ期患者提供新的治疗思路及方法,继而为后续推广该方奠定基础。方法:通过随机对照临床研究方法,按纳入及排除标准,于广州中医药大学祈福医院肾
随着城市化的发展,智能交通系统已经成为解决城市道路交通的重要手段。智能交通系统是一个集通讯、检测、控制和计算机等技术于一体的综合信息管理系统,主要包含智能基础设施
近几年,无人机智能巡检技术因其自身优异的性能在电力行业中得到了广泛的应用,虽然在一定程度上提高了巡检的便利性,但在巡检过程中会产生大量的可见光图像数据,并且这些图像
随着网络信息技术的高速发展,电子高新技术新产品的市场及需求也不断增大。举例来说,苹果公司近60%的销售收入来自过去四年推出的新产品,并且高新技术产品通常会采取代工生产