分布式机器学习集群的资源调度机制研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的公司部署分布式机器学习集群用来训练机器学习模型,以提供各种人工智能驱动的服务。与此同时,机器学习任务也给集群资源调度(为任务匹配合适的资源)带来了一些独特的挑战,如复杂的资源-训练速度关系、任务完成时间不可预知等。现有的相关研究大多基于研究者对特定的机器学习框架和工作负载的理解对资源-任务完成时间建立白盒模型,再通过启发式算法求解。白盒模型的准确性会极大的影响资源调度的性能且不具备通用性。因此,本文引入黑盒优化技术来解决分布式机器学习集群的资源调度问题,主要的工作如下:1.当集群中的机器学习模型为生产级模型时,用户主要关心模型的训练时间。资源调度问题主要考虑如何为每个任务选择合适的物理计算节点上以使得总任务完成时间最小。本文对该问题进行了形式化数学建模,并对该问题存在的挑战进行了深入分析,提出了一种基于贝叶斯优化的资源调度算法,首次引入贝叶斯优化这种黑盒优化算法来解决该问题,并在其中提出了收敛曲线学习子算法来解决机器学习训练迭代次数未知的问题。本文对4种不同的概率代理模型和采集函数组合的贝叶斯优化子算法以及其他目前领先的研究进行了实验对比。实验结果表明,贝叶斯优化子算法确实能用最少的搜索开销找到最优或者接近最优的资源调度方案,并且概率代理模型为高斯过程,采集函数为EI(Expected Improvement)的贝叶斯优化子算法在所有场景中都表现最好。而概率代理模型为随机森林时可以显著的减小计算复杂度,对于超大规模集群会更实用。2.当集群中的机器学习模型为实验级模型时,用户主要关心模型性能(如准确率)。本文分析了为了实现提升集群中的机器学习模型的整体性能,资源调度算法应该具备的要点。基于这些分析,本文提出了Metis算法,一种基于深度强化学习的资源调度算法。Metis以最大化集群中的机器学习模型的整体性能为调度目标,采用固定时间分片的周期性调度策略,由深度强化学习Agent做调度决策,主动调整资源分配。本文设计了强化学习模型的状态、动作和奖赏,并在状态设计中,创新的提出用在小规模集群、小规模数据集上学习到的损失函数曲线以及资源-单次迭代时间模型的参数来对分布式机器学习任务编码。最后,本文实现了Metis算法并和目前领先的研究进行了对比。实验表明,Metis算法能显著提升集群中机器学习模型的整体性能,并且可以减少模型选择过程中用户的等待时间。
其他文献
为进一步践行普惠金融政策,为客户提供更优质的金融服务,简化信贷客户办理抵押登记手续,“让群众少跑路,甚至不跑路”,新余农商银行近日与新余市国土资源局协商合作,共同探索
目的分析为青少年近视患者配戴渐进多焦点镜进行治疗的效果。方法将笔者所在医学院的眼科视光中心收治的82例青少年近视患者作为研究对象。将这些患者随机分为对照组和观察组
【正】 固定资产投资规模,是关系国民经济全局的一个重要问题,也是巩固发展当前大好形势的关键问题。建国以来,我国在经济建设中,根据国力的可能,保持固定资产的投资适度,逐
园林绿地作为大的海绵体,是海绵城市建设重要的内容之一。葫芦岛市在城区绿化工作中,采取多种措施加强城区绿化,积极推动海绵城市建设。
从现有铁路布局和城市规划出发,高速铁路上海引入段及站址的推荐方案为:沪宁高速铁路在既有线南侧,沪杭高速铁路在既有线北侧引入,彼此沿着既有外线两侧连接于诸翟高速客运站,形成
玉米是我国的主要农业经济作物,其适应地域和气候条件性强,在全国农业生产中受到广泛欢迎,在农业经济建设中发挥重要作用。而在玉米种植过程中由于人们缺乏科学施肥的知识,盲
清代闽粤台乡村宗族械斗频发,深刻影响地方社会秩序。本文利用民间收集的珍贵文献资料,复原雍正三年发生在九龙江北溪流域碧溪、玉兰两村的宗族械斗及其善后处理的历史,探讨
随着社交媒体发展的重心从PC端转向移动终端,自媒体的发展也进入了新的阶段。越来越多的人成为网络内容的生产者,人们也越来越倾向于在微博等社交媒体上表达自己的观点和意见。对用户发布的这些内容进行数据挖掘或情感分析,不仅有助于企业进行决策,也可以帮助政府进行舆情管理和政策制定,具有显著的商业价值和社会意义。情感分析作为自然语言处理领域的一个重要分支,已有大量国内外学者进行了研究,除了计算机学科的研究工作
火力发电设备检修是依据设备运行状态为理论依据,进而决定是否要进行检修,预知维修是其另一种代称。新形势下提高火力发电设备的运行效率、减少设备维修工作量、消除设备安全隐