通信高效的分布式并行随机优化算法的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,机器学习模型规模变得越来越大,随机梯度下降(Stochastic Gradient Descent,SGD)算法及其分布式并行变体成为大规模机器学习任务的主要优化算法。虽然现有的分布式随机梯度下降算法在理论上具有优秀的线性加速比性质,但是由于在实践中分布式训练需要引入额外的通信开销,这些算法很难实现真正的线性时间加速比。因此,设计通信高效的分布式并行算法在机器学习的研究中至关重要。本文从两种不同的角度提出改进算法以减小分布式优化中的通信代价。针对大规模深度学习任务,我们提出计算与通信解耦的分布式随机梯度下降(Computation and Communication Decoupled SGD,CoCoD-SGD)算法,通过并行执行计算和通信以减小通信开销。我们从理论上证明了所提出的算法在同构和异构两种计算环境中都具有线性加速比。另外,相比于已有的分布式优化算法,所提出的算法具有更低的通信开销和更高的时间加速比。具体来说,当使用N个计算设备协同地进行T次迭代,CoCoD-SGD的通信复杂度为O(N3/4T3/4),与目前最优的算法局部随机梯度下降(Local-SGD)持平,但由于CoCoD-SGD可以并行地执行计算和通信,所以达到了更优的时间加速比。在深度神经网络上的实验结果验证了 CoCoD-SGD算法的优越性。从通信复杂度的角度,已有的关于Local-SGD的研究采用固定的或者自适应的通信周期,并证明了当机器间的数据分布相同(ⅡD)或不同(Non-ⅡD)时,Local-SGD的通信复杂度分别是O(N3/2T1/2)和O(N3/4T3/4)。在本文中,通过逐阶段提升通信周期并减小学习率,我们提出阶段性局部随机梯度下降算法(Stagewise Local SGD,STL-SGD)。我们证明了 STL-SGD能够保持与小批量随机梯度下降(mini-batch SGD)相同的收敛性和线性加速比。另外,得益于递增的通信周期,如果目标函数是凸函数或者其满足Polyak-Lojasiewicz条件,对于ⅡD情景和Non-ⅡD情景,STL-SGD的通信复杂度分别是O(N log T)和O(N1/2T1/2),相对于Local-SGD有明显提升。在凸问题和非凸问题上的对比实验证明了STL-SGD算法卓越的实践性能。
其他文献
现实世界中,有许多科技、商业、经济和生物的数据可用复杂网络来表示,例如电力网格、电话交互网、社交网络、万维网以及科学家的合著关系和引用网络;在生物学领域,有流行病学
目的观察3Dbody解剖软件在神经外科教学中的应用效果。方法选择齐齐哈尔医学院2015级临床医学专业教改班学生为研究对象,分成两组(对照组和实验组),在神经外科课间见习中对照
采用2011-2014年国内77家商业银行数据,从盈利性假说和流动性假说两方面对我国商业银行进行信贷资产证券化的动因进行实证分析。研究结果显示,我国商业银行开展信贷资产证券
空想性错视,是指在外界信息刺激模糊不清或者模棱两可的情况下,通过联想将感知到的事物的形象通过改变或增添删减一些细节,从而产生歪曲知觉的现象,简单来说,即大脑将外界的
<正>曾经的数学迷,有幸与会计结缘,从事会计工作,见证行业的变革与发展,于我而言是幸运的。我当不忘初心,怀揣专业梦想,努力追寻下去。从数学迷到会计缘年少的时候,我曾经喜
长期以来,员工越轨行为被视为一种对组织有害的行为,应该予以消除或减少。然而,研究表明,在亲社会动机的驱动下,员工也会做出对组织有益的建设性越轨行为。近些年来,围绕着建
对AH32钢T型试件进行疲劳试验,并利用有限元软件对T型焊接接头的应力分布及疲劳寿命进行数值模拟,最终将疲劳试验结果与数值模拟结果对比分析。研究发现,T型焊接接头在焊趾附
专门用途英语ESP是英语语言教学领域的一门新的分支学科。本文旨在说明如何运用专门用途英语课程设计理论为西安导游设计英语培训课程以满足其工作需要。在分析学员学习需求
自工业革命以来,煤炭、石油等化石燃料使用以及森林砍伐、过度放牧等人类活动,导致全球CO2浓度大幅增加。海洋作为地球最大的碳汇,吸收了30%以上人类排放的CO2量,已造成海水p
机械手是机械设备重要的工作部件。文中介绍了一种新型的、能够可靠抱紧的机械手。该抱紧机械手采用了柔性摩擦带和独立液压系统,并使各个部件按次序独立运动,从而实现了抱紧