深度学习云平台中GPU调度策略及任务并行化方法研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GPU在大规模深度学习场景中的广泛应用,GPU集群中多个深度学习作业的高效执行问题引起了极大的关注。深度学习云平台整合多个GPU计算资源,能够实现大规模深度学习作业的高效处理。然而,基于Kubernetes的深度学习云平台GPU调度方法将GPU作为最小资源分配单位完整分配给容器,会导致GPU资源没有得到充分的利用。同时,多个深度学习任务共同执行时,不合理的任务并行化策略会导致任务间的资源竞争;另一方面,对于需要多个GPU的深度学习训练任务,不合理的任务并行化策略会增加深度学习任务间的通信代价,导致任务在处理过程中执行时间过长。首先,本文深入分析了 Kubernetes容器集群管理平台资源调度策略,提出了一种细粒度的GPU调度优化策略,该策略综合考虑深度学习作业的GPU资源需求和集群中各节点GPU资源的使用情况,避免将资源需求相似的作业调度到同一个节点上,从而实现云平台节点上多维资源的均衡使用。其次,本文提出了一种干扰感知的性能预测模型,该模型可以预测GPU上多个共同执行的深度学习任务之间的资源竞争对其性能的影响,并基于该预测模型提出了一种干扰-拓扑感知的深度学习任务并行化方法,该方法针对深度学习任务的特征,综合考虑任务共同执行时产生的干扰和任务在多个GPU训练时的通信代价,将深度学习任务调度到适当的GPU上。最后,本文使用Docker容器技术实现了大规模深度学习作业镜像,在深度学习云平台中对以上提出的GPU调度优化策略和深度学习任务并行化方法进行了验证,实验结果表明本文提出的方法能够有效地提高平台中GPU资源的利用率和深度学习任务的执行效率。
其他文献
随着大数据时代的到来,实际业务的不断更新,hadoop生态环境的改革、发展,相关大数据技术的不断出新,使得运营商大数据中心的集群规模呈现指数级增长,各系统架构的复杂度远超之前,为改善运营商的运维工作压力日渐突出的问题,运营商大数据中心搭建统一运维平台,以缓解目前的运维压力,由于该项目具备周期性强、复杂度高、参与团队及人员数量较多的特点,各环节存在较多的潜在风险点,所以针对该项目开展项目风险管理至关
随着科学技术水平的提高,人们对于国家管辖外海域的探索能力加强,发掘出国家管辖外海域蕴藏着的巨大商业价值。为了在开发国家管辖外海域的同时妥善实现国家管辖外海域生物多样性(BBNJ)的养护与可持续利用,当前全球围绕相关治理机制的构建进行激烈的谈判,掀起海洋法治理变革的浪潮。同时,由于全球变暖、人类活动增加等因素,对脆弱的北极BBNJ进行治理尤为重要。然而BBNJ养护与可持续利用的国际法治理已在多个区域
伴随着环境污染和全球能源资源短缺,太阳能作为一种清洁环保的可再生资源,对其开发和利用已经得到世界各国的认同和重视。丰富的太阳能资源催生了光伏产业蓬勃发展,致使以分布式光伏电站为主的光伏发电量得到快速增长。与此同时,如何将光伏发电与常规配电网进行结合逐渐引起各方的关注。对于电网公司而言,常规的并网操作可能会造成电力整合、电网维护等一系列影响。本文针对光伏发电并网稳态下配电网的电压等级、电压分布、电压
本翻译实践报告的文本《贝桑松——时代精神》(BESAN?ON l’Esprit du Temps)为地方志类文本。2012年,法国红杉出版社(éDITIONS DU SEKOYA)出版了《贝桑松——时代精神》第
恶性肿瘤是全世界范围引起死亡的重大疾病之一,对癌症的干预措施来说,药物治疗始终是最主要的方法。但现有化疗药物往往存在毒性大、耐受性差等缺点,因此寻找有效、毒副作用
2014年《公司法》的实施,赋予了公司股东出资期限利益。按照现行相关法律及司法解释,除解散清算、破产清算两种特殊情形之外,债权人无权要求未届出资期限股东出资责任加速到期,但在理论界一直存在不同观点,司法实践中也出现相似情形下不同的判决结论。2019年12月出台的《九民会议纪要》对非破产状态下股东出资责任加速到期适用情形进行了明确规定,但关于债权人权益保障的问题依旧存在。论文在实证案例分析以及综合分
目的肺癌的发病率和死亡率居恶性肿瘤之首,严重威胁着人们的身体健康。肺癌被分为两大类,分别是小细胞肺癌和非小细胞肺癌,非小细胞肺癌主要是鳞状细胞癌和腺癌,其中腺癌约占肺癌总发病率的50%,且近年来肺腺癌的发病率逐年上升。Eph A7是Eph受体家族中的重要成员,不同肿瘤(包括肺腺癌)Eph A7表达与肿瘤形成、生长、转移及预后有密切关系。局部侵袭性是肺癌患者死亡的主要原因之一,目前尚未利用IVCT技
合成孔径雷达(Synthetic Aperture Radar,SAR)在军事和民生领域中发挥着重要的作用,它一直是雷达遥感领域的研究热点。随着深度学习技术的不断发展,SAR图像理解与解译的研究方法也得到新的启发。但是,基于深度学习的研究方法一般需要充足的带标签数据,而SAR图像却存在着资源昂贵,难以获得的问题,这限制了深度学习技术在SAR图像上的应用。因此,针对SAR图像的生成和扩充研究具有重要
大数据时代,数据作为新型经济业态的核心,为大数据经济输送源源不断的海量资源,风险与数据静态、流动、在用三种状态相伴而生。出于公共安全与国家安全等各种考虑,数据的跨境流动基本受到严格限制,但对数据安全的治理一直聚焦于个人数据保护方面,对非个人数据安全的保护重视不够。我国对于非个人数据跨境流动的保护呈现明显的分散化、碎片化特点,缺乏非个人数据跨境流动的统一标准和规则。国际社会而言,非个人数据跨境流动规
当前,食品安全问题受到前所未有的关注。如何进一步理顺各部门职能、协同社会其他相关主体共同参与食品安全工作,成为摆在政府面前亟待解决的重大问题。协同治理克服了食品安