基于小规模GPU集群平台的深度学习任务调度研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:baofeifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以深度学习为代表的核心技术引发了第三次人工智能的浪潮。从互联网巨头到中小规模企业、从研究所到各个高校,学术界和工业界都围绕深度学习技术开展了广泛的研究和探索。虽然以TPU为代表的深度学习专用硬件层出不穷,但是GPU集群仍然是开展深度学习研发的主流平台。相比于巨头互联网公司推出的大规模定制化深度学习平台,广大科研院校和中小规模企业由于预算有限,更偏向于采用高性价比的小规模GPU集群,来构建多用户共享的深度学习研发平台。在该研究背景下,如何提高GPU平台的资源利用率,进而提高深度学习任务的吞吐量,是极具现实意义的研究方向。本文紧紧围绕上述挑战,基于小规模GPU集群平台对深度学习任务进行了广泛的评测与分析,并在此基础上提出了一系列调度策略。本文的主要工作和创新点包括:1.考虑到深度学习研发平台需要处理各种复杂的深度学习任务,因此本文首先对深度学习任务进行详细的分析与评测。本文从网络结构、计算流程、通信模式、不同框架实现、各种应用超参数和分布式参数等多个方面对深度学习任务进行梳理和总结,并基于一个小规模GPU集群对典型深度神经网络进行评测,从任务吞吐率、GPU资源利用率、显存占用、GPU扩展性和GPU局部性等多个角度进行量化分析,并作为后续调度算法设计的重要基础。2.基于深度学习任务的评测与分析,提出了一种基于用户QoS感知的动态调度框架GENIE。该框架主要包含离线评估模块和在线调度模块。通过轻量级离线评估器,GENIE可以利用深度学习任务的评测数据来构建性能预测模型。基于性能预测模型,GENIE可以在线动态地为每个任务选择最佳的放置方案,并在GPU集群上调度执行。通过在16-GPU规模的集群和大规模模拟器的实验验证,GENIE相比于其他基准算法可以实现更高的QoS保证率和集群资源利用率。3.针对基于预测的调度策略的预测精度不高和离线评估开销大等问题,提出了一种基于强化学习的在线任务调度策略。该策略采用Q-learning的算法框架,对深度学习任务的调度场景进行了建模,设计并实现了该场景下的状态空间、动作空间、反馈函数和更新机制等模块。基于对任务执行性能的在线监控和反馈,学习引擎可以自主进行学习并不断调整任务调度决策。在GPU集群上的实验表明该算法在任务平均标准化吞吐率和整个任务队列完成时间上都有显著提高。由于强化学习方法较好的在线自适应特性,该算法更适用于长运转周期的深度学习研发平台。4.为了改善独占式任务调度策略对GPU资源利用不充分的缺点,进一步提高GPU显存资源的利用效率,提出了一种基于显存效率的GPU共享任务调度策略。该策略结合深度学习自身网络模型结构信息,计算其在不同放置策略下的计算量和显存占用,并通过显存效率这个指标来衡量不同放置策略在有限显存资源的占用下所支撑的计算规模。在显存效率的基础上,提出了一种启发式调度算法,来实现多任务对GPU资源的共享,进一步提高系统资源利用率和任务的完成速率。
其他文献
“兵者,国之大事,死生之地,存亡之道,不可不察也。”战争关乎国家安危,必须运用科学的理论和方法做出正确的决策,作战行动计划质量的高低事关战争的成败,必须运用科学的方法对其进行研究。信息技术的发展使得武器装备系统之间的互联互通更加频繁,作战体系化和网络化的特征愈发明显,尤其是无人装备和集群作战样式的兴起,使得作战体系(Combat System of Systems,CSo S)网络化的趋势更加明显
习主席强调指出,“掌握思想领导是掌握一切领导的第一位。”思想政治教育是我军政治工作的重要组成部分,其根本目的就是要将我们党的精神、意志和主张灌注于官兵的头脑和灵魂之中,从而牢牢掌握官兵思想,确保我军始终置于党的绝对领导之下。当前,随着网络信息技术的迭代更新速度不断加快,各种类型的社交媒体花样翻新、层出不穷,它们一方面因为能够为广大官兵的学习、工作和生活提供极大便利而日益成为广大官兵须臾不可或缺的生
信息系统与信息管理是以信息为核心资源,以信息技术为核心能力,面向宏观与微观各层面的解决经济和管理实际问题的重要科学领域,具有“信息、技术、管理”三个重要维度。信息的爆炸式增长催生了以计算机网络为基础的分布式系统。尽管分布式系统不断演进并得到广泛推广和应用,仍然存在一些基础性问题制约其效能的充分发挥。内容同步技术就是一个典型代表。分布式场景下,都存在不同主机之间需要快速准确的内容同步需求,例如集群节
作为一种广泛使用的在线凸优化方法,在线梯度下降算法通常用来求解在线学习问题。它把在线学习的过程建模为一个连续地博弈问题。博弈的双方分别为学习者和未知环境。在每次博弈时,由学习者先出牌,它根据历史信息给出一个出牌策略,即决策模型。然后由未知环境再出牌,它根据学习者给出的决策模型给出一个损失函数,因此带来了具体的损失。大量的文献研究了在线梯度下降算法以及它的各种变种方法,并分析了它们的性能。相关工作通
卷积神经网络(Convolutional Neural Network,CNN)近年来发展势头迅猛,被广泛应用在图像识别、模式识别等领域。用于图像识别CNN的错误率从2010年的28%降至2016年的3%,已经优于人类5%的错误率。目前,大型CNN的参数数量已经达到数百万,并且每幅图像需要多达数百亿次操作。随着卷积神经网络应用场景的拓展和计算需求的继续增长,学术界和工业界展开了对CNN加速器的探索
随着计算机技术的发展,实现对人体行为的分析和理解,将人作为计算环节的一部分,是未来人本计算的发展趋势。近年来基于射频信号的行为分析技术引起了学者的广泛关注,其通过人体对射频信号的扰动特征来感知和分析人体行为,具有非接触、非视距、无需额外设备、不受光照影响等优点,可利用已有网络基础设施实现快速大规模低成本部署,具有很大的发展潜力。当前,射频行为分析已经被应用在日常行为感知、身份认证、呼吸心跳检测等众
无人值守地面传感器(Unattended Ground Sensors,UGS)系统通常简称为地面传感器系统,是由布放在监测区域地面上的传感器节点、汇聚节点和监控节点所组成的无线监测网络。传感器节点对监测区域的目标信息进行采集、处理,并以无线方式将监测信息上传至汇聚节点,最终上传至远程监控中心。UGS监测系统具有快速部署、使用便捷、成本较低等优点,在战场信息采集及要地监控等领域有广阔的应用前景。但
人脸属性预测在娱乐、安防、社交媒体等实际应用中扮演着重要角色。现有研究多采用分类和回归性能较好的经典机器学习算法对人脸单个属性进行预测,由于单属性预测算法提取的特征较浅,未能挖掘更深层的特征,人脸属性预测准确率难以达到现实应用需求。随着计算机技术的快速发展,深度学习算法能高效地获取与属性相关的浅层和深层特征,能够取得比经典学习算法更好的性能,但由于深度学习算法层数较深,需大量的训练样本,现有的公开
无线传感器网络(Wireless Sensor Network,WSN)具有灵活多变的拓扑结构和对复杂战场环境的强大适应能力,以WSN为搭载平台的精确干扰技术成为新一代电子对抗技术研究核心。然而,其庞大的传感器节点数目也为算法处理时效性带来巨大挑战。针对该问题,本文建立了具有高效运算性能的精确干扰框架并提出了具有分布式运算能力的合作定位算法和精确功率传输算法。具体工作和创新点如下:一、搭建了以分布
本文主要研究自主驾驶汽车的场景感知和局部路径规划这两项关键技术。其中,场景感知由于输入数据的维数较高且包含大量噪声,因此是一项极具挑战的任务。目前的场景感知算法主要利用了计算机视觉和模式识别技术。通过使用机器学习,尤其是深度学习,可大幅提高场景感知的性能。然而,深度学习中所存在的(a)数据需求量大,(b)人工标签需求量大,以及(c)缺乏可解释性这三个问题,却严重地限制了其在场景感知中的应用。为此,