GPU集群环境下基于流水线的分布式深度学习训练优化技术研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户：trung

【摘要】

：

【作者】

：

詹隽

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2020年01期

【关键词】

：

深度学习

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度神经网络的训练任务通常具备计算和存储密集的特性，往往需要依赖于 GPU集群中大量 GPU 计算以及显存资源，并通过分布式训练以提升训练效率。传统分布式训练中数据并行的方式因参数同步存在巨大通信开销，而模型并行则由于计算依赖性导致 GPU 利用率较低，均影响了分布式训练的效率。为此，最新的流水线分布式训练在模型并行基础上，通过分时注入训练数据的方式显著增加 GPU 利用率。然而，在现有的GPU集群中执行流水线分布式训练时，一方面，GPU之间网络带宽异构使得流水线模式下执行模型划分与任务放置存在较大难点，另一方面，GPU显存资源短缺给流水线模式下训练较大的深度神经网络造成了极大的限制。
　　针对上述问题，本硕士论文主要围绕 GPU 集群环境下基于流水线的分布式深度学习开展训练优化，对如何进一步提高训练效率和提升支持训练模型的大小进行研究，以实现在GPU集群中更快地分布式训练更大的深度学习模型。具体内容包括：
　　首先，针对GPU集群中GPU之间异构的网络难以实现流水线模式下负载均衡的模型划分与任务放置，研究异构网络感知的模型划分与任务放置机制。基于网络异构的GPU集群环境以及流水线分布式并行执行的特点，实现流水线模式下GPU之间负载均衡的模型划分与任务放置机制，以减少 GPU 资源空闲，提升流水线训练整体吞吐率，最小化模型训练时间。
　　其次，针对在流水线模式下由于缓存多个版本的中间结果及模型参数造成的 GPU显存不足，研究开销平衡驱动的显存重计算优化机制。根据对流水线模式下显存占用数据分析，设计出流水线各阶段开销平衡的显存重计算机制，以支持大神经网络模型的流水线分布式执行，同时最大程度地保障流水线吞吐率受到重计算开销影响最小。
　　最后，设计并实现 GPU 集群环境下基于流水线的分布式深度学习训练优化系统。本文基于东南大学云计算平台中真实的GPU集群环境，将理论研究成果与实践相结合，设计并实现了原型系统，并进行了部署和实验。实验结果表明，本文所提出的 GPU 集群环境下基于流水线的分布式深度学习训练优化机制不仅能提升分布式训练效率，同时能保证超大神经网络执行流水线分布式训练，实现了高加速比、低显存利用率的分布式训练。

其他文献

基于CNN与RNN的短文本情绪分析研究

随着社交网络、电子商务、移动互联网等技术的发展，各种网络数据迅速增加，互联网上蕴含着大量带有情绪色彩的文本数据。如何对来自不同渠道的短文本进行自动分析和处理己成为急需解决的难题。情绪分析属于自然语言处理领域的一个分支，近年来有许多学者对它进行研究。基于CNN与RNN的短文本情绪分析研究就是通过CNN和RNN相关算法对互联网上面的微博言论、购物评价等短文本信息进行分析挖掘，分析文本中是否包含情绪、情

学位

情绪分析

基于INLA的时空分析方法研究与应用

时空分析方法的发展为处理复杂时空数据集、构建复杂时空模型提供了更多可能。在这一过程中，随着贝叶斯近似计算方法的丰富，贝叶斯框架下的时空数据分析实践也不断增多。　　本研究基于时空点过程分析理论，将西北某市P区数字城管系统中累积的城管问题事件抽象为点模式事件，将城管问题事件的产生视为一个非均匀泊松随机过程。利用积分嵌套拉普拉斯逼近（INLA）与随机偏微分方程（SPDE）计算方法在贝叶斯框架下构建时空L

学位

时空分析

基于卷积神经网络的低照度图像增强方法研究

在采集图像时，由于场景光照条件差或者设备的补光能力不足，容易产生低照度图像。低照度图像存在视觉感受差、高噪声、使用价值低（难以辨识图像内容）等问题，所以针对低照度图像增强算法的研究有很大的意义。近年来随着深度学习的火热，以卷积神经网络为主的深度学习方法逐渐取代了传统的低照度图像增强方法成为了研究热门。所以本文主要围绕着基于卷积神经网络的低照度图像增强方法进行研究。　　由于目前在低照度图像增强的研究

学位

低照度图像增强

基于机器学习的时间序列预测算法研究

时间序列一般是指系统中某一变量的观测值按时间顺序排成一个序列。时间序列数据是受系统中其它各种因素影响的总结果，自身反映出了对象的变化特征、发展趋势和运动规律。时间序列有高维时间序列也有单维数间序列，针对不同特性的时间序列数据应使用不同的方法进行研究才可获得预期的效果。本文的研究内容便是研究不同特点的时间序列数据该使用怎样的研究策略。本文的主要研究内容包括：　　1）针对单维小样本时间序列数据提出使用

学位

时间序列数据

基于SDN的物联网数据聚合研究

物联网设备产生和发送的数据中存在许多重复冗余的部分，传输这些数据降低了网络寿命、增加了网络流量。数据聚合可以减少不必要的数据传输，提高网络传输效率，减少能量与资源受限设备的能耗，延长网络寿命。本文从物联网数据聚合的路由结构和处理算法两个方面进行了以下研究：　　（1）提出聚合网关层，设计了一种基于SDN的物联网数据聚合体系结构和规则算法。对于能量受限的传感器节点，对LEACH算法改进，综合考虑了节点

学位

物联网

基于深度学习的人体摔倒检测研究

摔倒是老年人意外死亡的首要原因，摔倒行为检测在维护老年人生命安全方面有着重要应用价值。本文以研究人体摔倒检测为主要方向，基于计算机视觉，将目前主流的深度学习方法用于监控视频下的人体摔倒行为建模和检测，主要完成以下工作：　　1）对现有的三种人体摔倒检测法：可穿戴设备法、环境感知法和计算机视觉法进行研究对比，分析不同方法的研究现状、优缺点和适用场景。　　2）提出了基于人体轮廓关键点和LSTM(Long

学位

人体摔倒检测

基于深度学习的肺结节分割方法研究

肺癌是威胁人类健康的多发癌症，其病灶的表现形式肺结节，它是致死率最高的癌症之一，如果在癌症早期发现病灶并及时进行治疗将会大大降低死亡率。医学CT（Computed Tomography，CT)影像是肺癌诊断的主要模态，这些影像数据为医学工作者提供了大量的诊断信息来判断癌症的类型。但是由于人工阅片需要医务工作者具有较强的专业素养，并且诊断比较耗时，因此计算机辅助诊断（computer-aided d

学位

肺癌

融合组织特性的脑部磁共振图像分割方法研究

磁共振成像因其具有无创、较高的软组织对比度等特点，广泛用于脑科学研究和临床脑疾病诊断，脑部磁共振图像的分割可辅助医生诊断病情。纵向弛豫时间T1是磁共振成像组织的固有属性，组织特性T1映射图不仅反映了成像组织的生理学或病理生理学特征，还提供了原始脑部磁共振图像不具有的组织特征。本文主要研究的是融合组织特性的脑部磁共振图像分割方法，研究内容如下：　　（1）基于自旋回波—反转恢复序列以及反转时间，计算并

学位

磁共振图像

基于Spark数据分析与机器学习的光伏发电预测研究

在光伏功率预测分析的过程中，由于光伏板受外界因素影响，输出功率会产生变动，从而威胁到电网的安全。本文针对光伏功率影响因素和算法的创新应用展开研究。实验主要完成以下工作以及研究：　　（1）SVM算法是本实验运用机器学习预测光伏输出功率中所选择的经典算法。研究使用GBDT算法和SVM算法组合的方式对光伏功率输出进行短期预测。由于得到的电站数据包含多组因素，使用GBDT算法对数据中的因素进行重要性分析，

学位

光伏发电

基于CNN的步态识别算法

步态特征是一种新型的生物特征，与其它的生物特征，如人脸、指纹等相比，其最突出的优势在于非接触性和远距离适用性。在当今高科技越来越发达的时代，步态识别在智能视频监控和身份识别领域都有着重要的实用价值。在传统步态识别方法中，因为步态模型的参数通常是根据人的先知经验选取的，识别率的高低受步态建模的影响较大，另一方面，外界因素如大衣外套、背包携带物等对模型的训练也会产生较大的影响。针对以上问题，本文分别开

学位

步态识别

GPU集群环境下基于流水线的分布式深度学习训练优化技术研究与实现

与本文相关的学术论文