大规模训练集群的资源调度自适应算法实践

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户：xzlanxing

【摘要】

：

【作者】

：

吴婷

【出处】

：

中国新通信·理论版

【发表日期】

：

2020年4期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：针对大规模深度学习训练集群中存在的多租户资源管理困难问题，提出了一种多租户资源动态管理算法，满足不同时期不同用户组的资源配额需求。针对集群中用户作业种类多样等导致集群资源碎片化的问题，提出一种基于深度学习作业特点的作业自适应调度算法。以上算法在科大讯飞集群实践中，提高资源利用率并提升了用户体。
　　关键词：深度学习;多租户管理;作业调度;自适应
　　引言
　　人工智能特别是深度学习技术的进步，使得异构计算兴起，越来越多的机构、企业开始搭建并使用深度学习训练集群进行模型训练。随着资源共享程度增加和业务需求增长，训练集群的规模往往越来越大，使用该集群的用户人数也越来越多，实际运行在该集群上的作业类型也越来越多样化。
　　在集群底层资源共享的前提下，为了方便管理，往往需要对于集群的用户先进行分组。并且还要为每个租户组配置好资源使用上限（即为每个租户组设置资源配额），以防止集群资源被个别人或个别组占用太多。但是在实际生产过程中，不同租户组的资源需求往往不固定，且动态变化，因此简单的设置组配额不够灵活，造成用户组临时的高资源需求无法满足，且不利于集群整理资源利用率的提升。因此，本文将提出一种多租户资源动态管理算法。
　　在进行复杂的深度学习模型训练时，租户的一个作业常常需要同时使用很多张加速卡，譬如16张卡、32张卡等等。训练集群中每个计算节点的加速卡数目是有限的，因此租户的多卡作业往往涉及到跨机器并行计算。在深度学习领域，Tensorflow或pytorch是目前用户使用最广泛的两种训练框架，均已支持多卡训练。在进行多卡训练时，用户需要明确指定机器数目和每台机器上需要使用的加速卡数目。而在大规模训练集群中，用户作业对资源的需求数目不一导致集群资源碎片，因此指定机器信息的多卡作业体验往往不佳。因此，本文提出一种针对多卡训练的自适应调度算法，提高此类任务的用户体验，同时提高集群的资源利用率。
　　一、多租户资源动态管理算法
　　本文提出的多租户资源动态管理算法基本思想为：对每个租户组使用的资源设置配额、设计配额距离度量准则。当有用户组配额用满且有新作业提交到集群后，通过计算所有租户组的配额距离，并从中筛选出可贡献配额的组信息，然后扣减贡献组的配额值，并增加作业组的配额值，实现本作业组的配额动态提升。如果同时有多个组满足配额贡献条件时，则根据配额距离进行排序，从大到小的方式扣減，即，配额距离越大的组扣减越多。多租户资源动态管理算法处理流程示意图如下所示。
　　二、作业自适应调度算法
　　在本调度算法下，用户提交作业时无需再指定机器数目和每个机器所需的加速卡数目，只需要提交作业时指定总共需要几张加速卡即可。作业自适应调度算法的具体思想为：作业提交后，作业控制器将作业的资源需求信息反馈给判决器，判决器向资源监控器发送请求查询集群当前实时空闲资源和节点拓扑信息。判决器拿到信息后，经过判决算法计算得出资源配比数据，并将此数据返回给作业调度度，作业调度器根据接收到的机器节点数目和每台机器上的加速卡数目完成资源调度实现作业运行。在实际集群中，存在因为节点故障导致调度失败的可能，因此调度失败后会进行作业重提。
　　作业自适应调度的算法如下图所示。用户提交一个作业，需求为16张卡，作业被提交到集群后，判决器通过自适应算法共获得6个机器节点的地址信息，其中2个节点各有4张加速卡，另外4个节点各有2张加速卡。作业控制器拿到这个信息后将作业调度到这6个计算节点并进行训练。
　　三、结语
　　深度学习等人工智能技术的突飞猛进，使得大规模集群调度面临越来越多的挑战。面对越来越多的用户群体、越来越多样的作业类型，本文主要探索了一种多租户资源动态管理算法和一种作业自适应调度算法。经过企业集群的实践，有效提高了用户体验，并同时提高了集群整体的资源利用率。

其他文献

风景园林工程中软质景观和硬质景观施工探讨

摘要：我国的城市化建设当中，风景园林取得了一定的突破，已经成为了人们生活必要场所之一。对风景园林工程进行讨论，可以发现其中囊括的学科是很多的。在景观分类方面可以分成硬质以及软质这两种。基于此，本文首先讨论了硬质的景观的问题和解决措施，其次讨论了软质景观的问题和解决措施。以供相关人员参考。　　关键词：风景园林工程;软质景观;硬质景观;施工技术　　引言：　　目前父女林工程的建设量越来越大，几乎成为

期刊

河南省儿童医院信息化安全平台的维护和管理

摘要：医院依托互联网信息技术的发展，建设高效便捷的信息化平台，在获得信息化平台所带来的工作便利同时，也面临着极大的安全隐患问题。本文从分析河南省儿童医院信息化安全平台中所存在的问题的出发，全面分析导致问题出现的原因，提出安全平台维护和管理的有效方案，希望能够为医院信息化安全平台维护和管理提供参考。　　关键词：医院;信息化安全平台;维护和管理　　当前，互联网信息技术已被广泛应用于各行各业，给人们

期刊

配电检修工作的常见问题与措施探究

摘要：电力系统是我国一个重要的能源，电力的使用也已经成为我们日常生活中不可缺少的部分了，随着这项技术的发展，我国对于电力系统的检修工作也逐渐重视起来，所以让电路系统持续正常运作是电路工作者需要关心的问题。由于用电用户不断增加，电网扩展速度，在运行过程中经常会出现各种问题，因此本文就配电检修工作中常见的问题和解决措施进行了探究。　　关键词：配电检修;问题;解决措施　　电力系统不仅可以供我们居民用

期刊

基于医院信息系统管理和维护的思考与实践

摘要：随着现代社会的科技发展，计算机已经越来越多的应用于各行各业的生产工作当中，计算机的应用不仅方便信息的存储和管理，而且在信息查询上也更加的方便快捷[1]。当然，医院也不例外，医院信息系统的建立，在医院的信息管理方面发挥着不可替代的作用，已经成为了各大医院建设必不可少的基础措施，随着信息系统的不断扩大，对于信息系统的管理和维护也变的日益重要起来。　　关键词：医院信息系统;系统管理;系统维护;

期刊

主流媒体直播带货新语态分析

摘要：2020年，无疑是直播带货的元年，互联网再次谋划出新的媒介形式，以直播刺激消费，无论对经济的逐步复苏，还是对新媒体行业的强势发展，都是不可复制的创新途径。而这对于广播电视行业来说，看是去貌似并不友好，因此在大浪淘沙似的媒介环境中，广播电视行业需要快速探索可将大屏、小屏有效融合的新方式。综观湖南卫视6月连续三台的直播晚会，其内容和收视效果，给我们带来了极具参考价值的创新模式，凸显出传统媒体

期刊

电气在工程建设的重要性

摘要：目前，随着我国经济建设的迅速发展，人们对高级民用建筑的服务功能不断增加和延伸，提高了对建筑电气化、自动化、智能化的使用要求，这就使得建筑电气专业在建设工程的施工过程中复杂程度越来越大，对于电气系统的施工质量要求也就越来越高。建筑电气工程的质量，对于建筑的使用功能、竣工后运行的安全可靠程度、投资效益的体现等都起有着极为重要的作用，对于一项建筑电气工程来说，从开工到竣

期刊

医院信息系统的网络安全管理与维护方法研究

摘要：在医院信息系统管理当中，网络安全管理是非常重要的一项内容，将网络安全管理与维护的质量提升上去，能够对医院医疗服务发挥职能起到积极作用。在信息时代背景下，我国医院在面临挑战的同时也遇到了前所未有的机遇，医院应该重视网络的安全，将医院信息系统网络安全管理中所出现的问题解决，从而促进医院的稳定持续发展，也让其为人们提供更高质量的服务。本文就医院信息系统网络安全管理中所出现的问题展开分析，提出加

期刊

工程建设电气的节能浅谈

摘要：随着经济的快速发展，世界范围内的能源短缺问题也越来越严重，并呈现出逐渐加重的趋势。为了保持我国经济的持续增长，并实现由粗放型经济向集约型经济转变，必须要全面贯彻落实节能减排战略，以促进我国经济的快速发展。将工业电气节能设计方案推广应用到电力企业建设和发展过程中，可以有效减少企业的污染排放、节约能源，这对于促进电力企业可持续发展和实现人与自然和谐共处具有非常重要的意义

期刊

环境监测实验室质量控制措施

摘要：环境监测实验室是一个监测企业的心脏，质量控制是实验室的核心部分。实验室的质量关系到检测公司的命脉。实验室通过质量控制体现出实验数据的真实性、准确性、可比性、正确性、精密性等。实验室加标回收率是经常用以自控的一种质量控制技术、是控制样品前处理好坏的依据，加标回收率的大小不仅反应了分析人员的操作技术水平，更重要的是它反应了分析方法是否适合被测基体，帮助分析人员及时地发现分析中存在的问题，确保

期刊

一种光纤紧包层材料Hytrel的挤塑工艺研究

摘要：光纤通信因其具备传输容量大、传输损耗低、传输频带宽和抗电磁干扰能力强等优点，在近30年收到了广泛关注并在网络工程、通信工程中获得了迅速发展。Hytrel树脂材料作为光纤紧包层成缆材料，已应用于陆地、宇航光通信产业。本文针对光纤Hytrel紧包层的挤塑工艺进行分析，在模具、挤出温度、冷却系统等方面讨论及优化了挤塑工艺要点。　　关键词：Hytrel树脂;光通信;挤塑工艺　　引言　　光纤通信以其

期刊

大规模训练集群的资源调度自适应算法实践

与本文相关的学术论文