基于梯度压缩的分布式深度学习通信优化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hnyqk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,深度学习技术的浪潮席卷了包括图像分类、语音识别、自动驾驶和内容推荐在内的多个应用领域。但是,数据量和神经网络模型复杂性的增加带来了巨量的计算开销,导致单机训练速度缓慢。基于参数服务器架构,在多个节点上分布式训练深度神经网络模型是一种行之有效的加速方法。由于神经网络模型训练的迭代性质,不同的计算节点之间需要频繁地进行通信以交换大量的数据,这就导致通信开销成为分布式训练中的关键瓶颈。随着集群规模的增长,通信开销会急剧地增加。尤其是使用高性能硬件加速器时,通信时间占整体训练时间的比例会进一步增加,这极大地削弱了分布式训练的优势。因此,我们需要克服通信瓶颈,优化训练过程中的网络通信开销。为了削减分布式训练过程中的通信开销,研究者们从各种角度提出了不同的优化方法和策略。这些方法按照优化的角度不同,可以大致分为网络流量调度和网络通信执行优化。网络流量调度优化主要包括降低通信频次、梯度压缩以及计算通信重叠等方法;而网络通信执行优化主要包括参数通信架构优化、高性能通信消息库以及网络协议优化。其中,梯度压缩通过有损压缩技术,能够在尽量不影响模型收敛精度的情况下,有效地降低节点之间传输的梯度数据量。本文基于梯度压缩技术,从以下两个方面进行分布式训练的通信优化。一方面,本文主要探索了不同大小的张量使用梯度压缩技术后的通信加速效果。我们发现,对于某些较大的张量,使用梯度压缩技术够加速它的传输;而对于那些较小的张量,由于梯度压缩引入了额外的计算操作,因此使用梯度压缩后反而会使其通信速度变慢。基于此发现,我们提出了一种基于张量大小的选择性梯度压缩(Flex GC)算法。通过一个预设的阈值,Flex GC算法对大于该阈值的张量进行压缩传输,对小于该阈值的张量不进行压缩。实验表明,相比于传统的梯度压缩算法,Flex GC不仅实现加速,还提高了模型的收敛精度。另一方面,梯度压缩技术只能够优化参数服务器架构中的梯度推送阶段,对于参数拉取阶段,梯度压缩无法实现有效的通信优化效果。为了优化参数拉取阶段的通信开销,本文从参数拉取操作的执行频率入手,提出了一种压缩推送和延迟拉取(CPDP)的同步机制。CPDP通过适当地降低参数拉取操作地频率,实现通信优化。然而,我们发现CPDP在多节点、大batch size的情况下收敛性较差。为此,我们同样使用基于张量大小的选择性压缩思想提出了Flex CPDP算法,它对一部分参数不执行延迟拉取而对其它参数执行延迟拉取。实验表明,Flex CPDP能够有效地提升使用CPDP算法训练的模型的收敛精度。
其他文献
数字信息在日常生活和营销环境中无处不在。虽然以往关于产品价格采用精确数字还是大概数字的研究已经取得丰富的成果,但关于精确数字与大概数字哪种方式表达更好,研究结论却莫衷一是。如今,与关注产品价格这一类较小数字不同,营销者开始热衷于在平面广告中呈现用户人数,这些数字往往以百万或千万的形式呈现。那么,这种较大数字究竟是以大概数字呈现还是精确数字呈现效果会更好呢?品牌标识作为平面广告的重要组成要素之一,可
学位
1.7μm波段光纤激光器在气体探测、生物成像和材料加工等领域有重要的应用价值。基于空芯光纤的气体受激拉曼散射为产生此波段激光提供了一种新的手段。瞄准实现全光纤结构1.7μm波段光纤气体拉曼激光器,本文开展了详细的理论和实验研究,主要内容如下:1.综合考虑空芯光纤损耗、泵浦源时域、气体拉曼增益等特性,分别建立了单程结构与谐振腔结构光纤气体拉曼激光器的理论模型,开展了详细的仿真与分析,为实验研究提供了
学位
波长选择开关(Wavelength Selective Switch,WSS)是全光网可重构光分插复用节点中最关键的器件。基于自由空间光学结构的WSS目前存在着尺寸大、边缘端口插损大、端口之间串扰大等问题,本文就这些问题展开研究并进行优化设计,具体研究成果如下:1.针对WSS中由于光栅“圆锥衍射”导致的输出光斑水平偏移,推导了偏移量的近似计算公式。此偏移量会随着端口数的增加呈抛物线型递增,从而对边
学位
对拦截机动目标而言,比例导引律存在理论上的缺陷,它不能保证视线的平稳。最优制导律虽在理论上可以实现零脱靶量,但这种制导律形式过于复杂,且需要精确已知弹目相对距离、相对速度以及目标加速度等信息。本文首先对一般的现实真比例导引律(RTPN)拦截机动目标的捕获区域进行理论分析;然后基于强化学习中两种典型算法深度Q学习(DQN)和深度确定性策略梯度(DDPG),提出两种只需视线角及视线角速率信息的强化学习
学位
研究生教育无论是面向职业性,还是学术性,均以能力培养为目标。设计的生产、生活性特征,使其具有鲜明的现实性与实践性,设计行为和活动的目的旨在满足和美化人类的物质与精神需求,其研究生培养必须秉承理论与实践、科学与艺术、历史与现实、本土与国际四个有机结合。
期刊
2020年伊始,新冠疫情席卷全球,线上交流备受青睐,文本数据爆炸式增长。随着移动互联网的飞速发展和文本数据的海量积累,真实场景中的短文本分类需求变得愈加迫切。然而,在真实场景中,短文本分类同时面临标注数据不足、数据稀疏和不平衡分类三大挑战。现有研究又鲜有同时解决这三大挑战的有效方案。鉴于此,本文聚焦于短文本分类问题,主要完成了以下工作。在第一章,对短文本分类问题的研究背景、研究意义、相关研究现状,
学位
众所周知,人工智能现在已经成为生活和科学研究中难以绕开的主题。目前,设计能够面对复杂环境并在环境中做出良好决策的智能体是现代人工智能研究的基础。在控制科学领域,对传统单一对象的控制方法和理论已经愈发成熟。同时,随着被控对象的数量的增加,多智能体系统逐渐成为在控制领域一个研究的热点。与传统的单一对象控制不同,对多智能体系统的控制往往需要考虑智能体所处的环境对整个智能体系统的影响。不幸的是,在实际应用
学位
纺织产业是中国重要的支柱性产业,与民生大计息息相关。在以国内大循环为主要思路、国内与国际双循环互为促进的新型经济发展格局下,中国纺织业面临着先进制造技术新环境下可持续发展和高端发展的机遇和挑战,亟须实现产业的数字化、智能化转型升级。提升纺织产业整体的智能制造水平对实现中国“制造强国”的战略目标而言至关重要。然而,纺织企业在数字化转型的过程中,常因对企业原有发展路径的依赖以及数字基础设施不够完善,缺
学位
党的二十大报告指出,全面建设社会主义现代化国家,最艰巨最繁重的任务依然在农村,农村问题是最基础、最复杂、最急需解决的重大历史与现实问题。随着社会治理创新的推进和乡村治理问题的不断显现,仅靠政府这一单一主体显然无法应对复杂的治理环境,这种现实需求生成了建设乡镇社工站的独特历史逻辑和现实逻辑。同时,我国广东、湖南等地乡镇社工站的试点探索彰显出乡镇社工站参与基层社会治理、改善民生服务的突出优势。福建省民
学位
因为农业人口众多,耕地面积有限,我国农业一直以小农场为主的生产方式进行,但是随着人口老化的逐步加剧,同时伴随着城市化的推进,现在农业劳动力开始减少,未来中国粮食安全面临“谁来种地”和“如何种地”的挑战。解决这一问题的实现路径之一就是无人化农场技术。该文通过对上海市嘉定区无人化农场的技术实践,对无人化农场的概念、技术架构,以及基础设施、作业设备、数据监测系统和管控服务平台等关键技术进行系统阐述,对无
期刊