基于Spark MLlib的分布式自适应随机梯度下降算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：lyzqwww

【摘要】

：

随机梯度下降(SGD,Stochastic Gradient Descent)是机器学习和深度学习中,用于求解非凸优化问题的标准迭代学习算法。针对SGD的不足,研究者们已经提出了多种改进算法。从优化

【作者】

：

樊士庆

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

优化算法随机梯度下降深度学习 Spark MLlib

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随机梯度下降(SGD,Stochastic Gradient Descent)是机器学习和深度学习中,用于求解非凸优化问题的标准迭代学习算法。针对SGD的不足,研究者们已经提出了多种改进算法。从优化方式上可以将这些改进算法分为基于动量的方法、方差缩减方法和自适应学习方法这三类。但是目前这些基于SGD的改进算法,都没有考虑算法训练过程中在当前迭代步越过最优解时,引起收敛震荡(oscillaition)的根本原因。传统SGD方法本质上是串行的,这使其在大数据集下变得不再适用。为此,研究者们提出了多种分布式优化算法。基于内存计算的Apache Spark是大数据处理的主流计算平台,Spark MLlib是基于Spark的可扩展机器学习库,是目前最流行的机器学习平台。然而,在MLlib库的SGD实现中,梯度数据在每次迭代中都需要同步一次,这导致收敛速度有时非常慢;当模型维度较高(>109)时,频繁的参数聚合操作又涉及到耗时的shuffle操作,因此效率非常低。此外,Spark的同步迭代通信模式基于Driver和Worker节点间的MapReduce操作,这使Spark成为了使用SGD的机器学习算法的低效平台。本文提出了基于震荡原因分析的分布式自适应随机梯度下降算法,并将其和基于数据并行的同步MLlib SGD算法相融合;针对MLlib SGD在训练模型维度过高时收速度较慢、通信开销较大的问题,本文提出了基于局部搜索的更新迭代优化算法和基于参数服务器的参数存储和通信优化算法,并证明了基于局部搜索的更新迭代优化算法的收敛性质。本文的主要贡献点有:(1)研究提出了基于收敛震荡原因分析的自适应随机梯度下降算法OAA-SGD。和已有同类算法不同,该算法通过检测相邻两轮迭代间梯度的相似性来动态调整学习率和动量项。为验证算法的有效性,本文借助Matlab可视化工具分析了 OAA-SGD算法在单机逻辑回归问题上的收敛过程,实验表明,在单机逻辑回归基准测试集上,OAA-SGD取得了比同类优化算法更快的收敛速度和更好的分类结果。根据实验结果和理论分析可知,所采用策略达到的收敛性与理论相符。(2)针对MLlib SGD算法实现中广播变量利用率低的问题,研究提出了基于局部搜索的更新迭代优化算法LS-SGD,该算法在MLlib SGD算法基础上,在单个全局迭代中重用本地数据分区,并优化了 MLlib SGD实现中效率较低的聚合操作。实验表明,在线性回归问题上LS-SGD算法具有比MLlib SGD更快的全局收敛速度,并且对LS-SGD算法的收敛性进行了证明。(3)针对MLlib SGD算法实现中对动量项和学习率的调节考虑不足的问题,研究提出了基于收敛震荡分析的分布式自适应SGD优化算法OL-SGD。它将LS-SGD算法中的局部搜索与OAA-SGD算法中的自适应优化相结合,在分布式环境下实现了局部迭代轮数的有效控制,以及对动量项和学习率的有效调节。(4)针对MLlib SGD算法实现中的Driver单点问题,研究提出了基于参数服务器的参数存储与通信优化算法OLP-SGD。通过使用基于Spark的参数服务器来分布存储、共享和更新模型的参数,取代了 MLlib SGD实现中低效的基于MapReduce操作的同步迭代通信模式,提升了算法的性能。在线性回归基准数据集上的实验表明,OLP-SGD算法相比MLlib SGD,有3～6倍的加速;在图像分类问题上的实验表明,OLP-SGD算法能取得接近已有优化算法最优解的最终分类结果;同时,OLP-SGD算法也具有良好的节点可扩展性。

其他文献

台湾柔道运动员训练和模拟比赛的生化分析

通过测定柔道运动员在训练和比赛时血乳酸、血红蛋白、血清肌酸激酶、血尿素的变化 ,探讨柔道比赛时能量代谢特点 ,以及运动员在训练过程中的身体机能状况。

期刊

柔道运动员训练比赛生化分析judokaexercisematchbiochemical analysis

1999年U—23全国足球锦标赛技战术的分析

旨为了解Ｕ－２３中国足球运动员经过一年训练后的比赛能力和技战术现状，运用临场统计与观察法对参加１９９９年Ｕ－２３全国忠于锦标赛的２６支队伍的进攻，防守以及比赛纪委进行研究，结果表明：本次锦标赛攻强

期刊

足球锦标赛防守U-23岁队伍战术分析football championshipU-23offensedeffencematch discipline

热视SC 4000中波红外摄像机

SC 4000是由美国前视红外系统公司生产的一种科研级高速、高分辨率红外摄像机，它配有千兆位以太冈、摄像机链路和USB等接口以保证最高的性能和灵活性。除此之外，SC 4000还具有

期刊

红外摄像机SC中波前视红外系统高分辨率数字输出千兆位USB

沥青混合料疲劳性能影响因素的正交试验分析

应用正交试验设计方法指导优化室内疲劳试验，通过直观分析和方差分析研究了不同的级配、沥青品种、油石比、应变水平、间歇时间和试验温度对混合料疲劳性能的影响程度；并结合实

期刊

沥青混合料疲劳性能正交试验设计抗疲劳设计asphalt mixture fatigue performance orthogonal test desi

长沙航院获2017中国技能大赛两个一等奖

2017年中国技能大赛——全国智能制造应用技术技能大赛近日在惠州落下帷幕。长沙航空职业技术学院宋福林、刘金荣、曾乐组成的教师队和苏响、黎琼、佘文智组成的学生队双双荣

期刊

技能大赛中国长沙职业技术学院智能制造单元制造应用切削加工组成

新加坡的用户线维护管理系统

期刊

用户线管理系统电话网维护系统

山区特高频组网的几个问题

期刊

电话网组网特高频贵州

河北省校园足球特色学校发展评价研究

2014年以来,教育部正式牵头负责全国青少年校园足球工作,政府在文件中多次提到,要建立健全学校足球评价机制,构建科学合理的学校足球评价机制和评价体系。2018年8月,河北省教

学位

校园足球特色学校评价指标体系河北省

向更高质量国际航空运输迈进

2018年5月2日，民航局印发《国际航权资源配置与使用管理办法》和《北京“一市两场”国际航权资源配置政策》（以下分别简称《办法》和《政策》）。《办法》和《政策》对我国国际航

报纸

基于数据驱动的高炉料面煤气流发展过程研究

料面煤气流分布的发展过程对于保持高炉的稳定运行、指导高炉优化操作及其调控起着十分重要的作用。尽管目前已有多种检测方法和煤气流分布模型,但不能描述煤气流分布的动态

学位

高炉料面煤气流分布布料周期人工智能算法料面煤气流发展模式

基于Spark MLlib的分布式自适应随机梯度下降算法研究

与本文相关的学术论文