面向分布式深度学习的集群资源调度机制研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：lgxbyc1

【摘要】

：

【作者】

：

傅懋钟

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着深度学习技术在人工智能各个领域的快速发展,深度神经网络（Deep neural network,DNN）模型日益复杂,数据集规模不断增大。在单机单卡环境下的DNN模型训练速度已经无法满足日常的研发需求,因此研发人员开始将DNN模型训练过程逐渐转移到多机多卡环境下使用多个计算设备进行并行训练,从而加快DNN模型训练速度。分布式深度学习（Distributed deep learning,DDL）开始成为大规模深度学习的重要支撑技术。然而,现有的通用集群调度器所采用的调度策略没有针对DDL任务的特性进行优化,导致DDL任务运行效率以及集群资源利用率低下。针对多个DDL任务的资源调度场景,存在着资源分配不均、任务随机到达、任务与资源之间存在异构性、集群带宽性能瓶颈等问题。故如何在分布式环境（GPU集群/数据中心）下完成对多个DDL任务的资源调度,提高DNN模型训练效率和集群资源利用率,是当前亟待解决的问题。基于以上描述,本文根据多个DDL任务到达集群的不同方式研究了GPU集群上多个DDL任务的资源调度问题,主要工作如下:（1）当多个DDL任务以周期性的方式到达GPU集群时,用户主要关心多任务的完工时间。本文提出了一种优化完工时间和资源利用率的资源调度方法（Optimizing makespan and resource utilization,OMRU）,解决多任务的任务调度和资源分配的联合优化问题。本文首先通过在不同数量的GPU上对DNN模型运行一个Epoch迭代来收集所有DNN模型的训练时间数据。然后将任务调度、资源分配和GPU复用相结合设计了OMRU算法。并在分布式环境下采用线性缩放规则调整DNN模型学习率,以保证DNN模型的精确度。最后,本文实现了OMRU算法并在GPU集群上使用图像分类和动作识别领域的多个DNN模型进行了调度实验。实验结果表明,OMRU算法相较于其它调度算法最多减少了30%的完工时间,并在图像分类和动作识别领域中分别达到了98.4%和99.2%的平均资源利用率,且DNN模型精确度与单机单卡环境下相近。（2）当多个DDL任务以随机的方式到达GPU集群时,用户主要关心任务的运行需求（如截止时间）是否被满足。本文提出了一种优化集群截止时间保证率的动态资源调度方法（Dynamic resource scheduling,DRS）,解决异构带宽环境下DDL任务的资源布局问题。本文首先根据Ring-All Reduce架构下DDL任务的迭代特性构建了资源-时间模型,以衡量DDL任务在不同资源配置下的运行时间。然后基于截止时间需求构建了资源-性能模型,以实现高效的资源利用。DRS算法基于上述模型并结合资源布局确定任务的最优资源配置,再基于最近截止时间原则选择最优调度任务进行物理资源分配,并引入迁移机制减少调度过程中出现的资源碎片场景的影响。最后在一个异构带宽GPU集群上进行了调度实验,实验结果表明,DRS算法相较于其它调度算法最多能够提升39.5%的截止时间保证率,并在调度过程中令集群总体节点的平均资源利用率达到了91.2%。

其他文献

面向视频应用的移动终端节能策略研究

随着计算机技术的快速发展,各种移动终端设备（如智能手机、平板电脑等）已经广泛普及,在线视频成为一种流行的传播媒介。在终端设备发展的过程中,它的软硬件性能不断提高,给用户带来了更好的使用体验,但同时也加剧了它的能耗问题。一方面,由于终端设备屏幕的增大以及视频应用使用比例的增加,屏幕的能耗不断增大。另一方面,观看在线视频时由于传输大量的网络数据也会造成终端较大的网络能耗。研究发现,屏幕和网络能耗已经成

学位

智慧海渔场景下基于Zabbix的全生命周期监控平台研究与应用

随着软件即服务的云计算概念迅速升温,面向服务的系统平台得到广泛应用,系统规模和复杂性也随之急剧增加,为系统监控设计带来更高的挑战。同时,在国家海洋信息化的大力推进下,舟山市渔业局为实现对渔业安全的精细化管理,建立了舟山市智慧海渔平台,以便实时掌握渔业生产动态、保障海上作业安全以及规范渔业生产秩序。其系统复杂性及数据时效性要求高的特点对海渔平台监控设计提出更高的要求。传统监控系统在告警通知上存在告警

学位

基于局部隐函数的光场超分辨率研究

数字光场（Light Field）作为下一代虚拟现实的核心技术,受到了越来越广泛的关注。然而,受到硬件技术的限制,当前的光场成像设备在时间（帧率）、空间（子光圈图像分辨率）、角度（子光圈阵列）维度上的成像分辨率仍然较低。因此,高分辨率的光场绘制一直是计算成像领域中的一个热点。本文结合深度学习中的最新进展,围绕光场图像在时-空-角维度的超分辨率重建方法开展研究。虽然目前已提出了许多基于深度学习的光场

学位

基于机器视觉的城市路网分析方法研究

城市路网交通数据的分析与预测与人们的日常出行息息相关,在智慧城市的建设与发展过程中,路网交通的智能化进程也扮演着极其重要的作用。通过对交通数据的分析与预测,可以及时掌握路网中的即时交通状况,极大提升交通调度及处理突发事件的能力。随着城市化进程的大大加快,传统的数据分析和预测方法已经不能满足庞大交通数据的处理需求,目前越来越多的研究工作趋向于基于深度学习进行建模交通数据进行分析与预测,因此深度学习算

学位

产业融合视角下信息化与物流产业深度融合发展研究——以临沂市为例

随着我国信息产业的不断发展，信息产业与传统产业的融合不断深入。如何利用信息化来促进传统物流产业的转型升级，是临沂市实现高质量发展的关键。本文基于产业融合的视角，以临沂市为例，探索适合临沂市的信息化与物流产业深度融合的发展途径。通过实地走访临沂市物流产业园区，分析临沂市物流业发展现状，找出存在的问题；并通过实证研究，证明信息化对临沂市物流产业的发展存在正向的促进作用；通过鱼骨图分析法对制约临沂市信息

期刊

基于机器学习的代码异味检测与移除推荐

代码异味是指源代码的次优设计或实现。迫于时间压力或其他因素,代码异味经常不可避免地被引入到软件项目中,给软件维护带来了隐患。采用人工的方式检测软件中的代码异味并提供移除建议是一项十分耗时且困难的工作。相反,自动识别代码异味并根据其表现特征进行移除推荐不仅可以提高维护工作的效率,并且可以减少开发人员的负担。基于以上背景,本文分别提出了一种基于图神经网络的代码异味检测方法,以及一种基于机器学习的异味移

学位

软件维护规模和可维护性程度预测方法研究

软件可维护性是指软件维护人员理解、改正、改动和改进软件的难易程度,是决定软件质量的关键属性。及时且准确地预测软件的可维护性对提高软件维护效率具有重要意义。然而,随着软件系统日益复杂,软件可维护性的预测也越来越困难。一方面,在软件维护规模的预测中,现有工作所使用度量套件对预测维护规模的有效性未得到统计学上的验证,且由于方法过于简单使得预测效果不够稳定。另一方面,在可维护性程度的预测中,大多数研究未考

学位

基于Petri网的不确定式工业信息物理系统建模与分析

随着近些年来科技的进步,计算机、传感器等设备的可用性和可负担性变得更高,越来越多的工厂从“制造”走向“制造”,工业信息物理系统（CPS）在其中发挥着重要的作用。工业CPS可在生产制造过程中融合计算、通信与控制等多项技术手段,使多类生产制造设备协同工作,从而实现生产过程的智能化。大多数工作为了对CPS进行性能分析,牺牲了模型的部分描述能力,从而无法描述工业CPS中设备之间的交互行为。此外,将现存CP

学位

基于多源数据的渔船轨迹关联及作业类型识别系统研究与设计

随着北斗系统的逐步应用,海上渔船定位数据越来越丰富,基于多源数据协同监控成为船舶监控系统（Vessel Monitoring System,VMS）的重要研究方向和发展趋势。针对传统VMS多源数据利用率低,不能有效协同多源信息精准监控渔船状态的问题,本文设计基于多源数据协同作用的渔船监控系统。该系统既可关联多源轨迹识别目标渔船也可基于轨迹识别渔船作业类型,进而实现海上渔船状态的精准监控。其主要内容

学位

经颅磁刺激治疗老年抑郁的研究进展

随着人口老龄化加剧，老年抑郁（Geriatric depression,GD）正成为一个全球重大公共卫生问题。经颅磁刺激（Transcranial magnetic stimulation,TMS）是一种已被证实治疗成年人难治性抑郁症的有效干预手段，但TMS对GD疗效仍不清楚。这篇综述提供了TMS治疗GD一些新观点，探讨了TMS应用临床治疗GD的可行性。

期刊

面向分布式深度学习的集群资源调度机制研究

与本文相关的学术论文