分布式机器学习系统数据并行的通信策略研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:john0620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习算法模型规模和数据量的高速增长,单个节点不能够有效的承担大规模训练所需的计算和存储需求,因此在分布式集群中运行大规模机器学习算法已成为常用方法。分布式机器学习关键在于如何解决划分训练数据、分配训练任务、调配计算资源、整合分布式的训练结果等问题,以达到训练速度与训练精度的平衡。因为现在大规模机器学习领域的主要矛盾仍然是训练数据量过大导致的训练速度缓慢,所以目前常用的分布式机器学习方法是采用数据并行的方法,以解决机器学习训练数据过多的问题。分布式机器学习通信策略中较常用的是整体同步并行策略,但整体同步并行策略中分布式机器学习的训练速度受制于集群中最慢的计算节点,导致模型训练速度过于缓慢。针对以上问题,学术界提出了另一种参数通信调优策略:异步并行策略,这一策略最大程度上利用了集群的计算性能,却导致全局模型参数更新变得延迟与不统一,这会使得模型收敛受到影响。针对上述两种通信策略存在问题,对分布式机器学习的通信策略进行相关研究,主要内容如下:1.将同步并行策略与异步并行策略进行结合,在实验中模拟各节点计算速度不均衡的情况,并通过算法将节点根据计算速度分为不同的组,对同组内的节点采用同步并行策略进行训练,对于不同小组则采用异步并行的方式进行训练。通过这种分组的方式可以降低组内节点的同步开销,并且由于每一组的节点对全局参数进行更新时都聚集了多个节点的计算结果,所以能降低异步并行所带来的对模型收敛变慢的影响。通过相关实验对比,在节点速度不均衡的情况下,混合并行策略能够达到优于同步并行策略与异步并行策略的性能。2.由于分布式集群中节点存在资源竞争、机器性能差异以及意外故障等问题,因此会出现落后节点的情况,使得运行于该节点的任务所需时间显著高于其他节点。当出现严重落后节点时,同步异步混合并行策略的表现并不是非常好。因此将梯度编码技术引入混合并行策略的小组内,并提出新的分组策略。通过相关实验证明,梯度编码技术能够降低落后节点在分布式机器学习中的影响,从而进一步加快分布式机器学习训练速度,提高整个模型的训练效率。
其他文献
高度智能化的机械臂抓取技术一直是机器人研发的重要目标之一。机械臂对于随机移动物体的抓取方法是实现工业生产线由自动化转向智能化所必要的重要功能。本文针对机械臂抓取移动物体的问题,研究了两方面问题。第一,传统基于预测机制的移动物体抓取方法预测精度较差,本文提出了一种结合长短时记忆网络模型(LSTM)和全连接网络结合的预测网络用于物体的移动轨迹预测,提高了轨迹预测准确性。第二,基于预测机制的移动物体抓取
目前我国各行各业快速发展,交通运输业也在以蒸蒸日上的态势发生着巨大变化。高速铁路的建设对于地区的经济发展也带来了越来越好的促进作用,得到了越来越广的支持。在保证列车安全运行的前提下,如何更加智能、方便的提高运行效率和性能成为关注的重点,因此列车的自动驾驶控制已成为高速列车领域的重要研究内容。在列车自动驾驶技术快速发展环境下,本文研究跟踪性能更好的速度跟踪控制方法。传统列车模型未考虑到非线性因素对列
移动机器人作为智能机器人的重要分支之一,关于其路径规划的研究,一直被国内外学者作为研究的热点。近年来,随着人工智能与智能制造技术的飞速发展,移动机器人与各种智能算法结合,应用领域不断扩展,但也同时面临着更多的挑战。目前,大多数学者都是针对已知环境下的路径规划算法进行研究,移动机器人缺乏自主学习性,当面临未知环境时很难找到一条抵达终点且无碰撞的路径,并且大部分都是输出离散动作,不符合场景应用。因此,
随着科学技术的发展,自动控制系统的规模越来越大,复杂程度越来越高,组成系统的电子元器件也越来越多。然而控制系统可能因为元器件老化、外界灾害、人为损害或误操作等问题发生故障,导致整个系统的安全性和可靠性降低,甚至造成不可挽回的损失或灾难。为了提高系统的安全性和可靠性,本文以多变量系统为研究对象,设计了多模型自适应执行器故障诊断和调节策略,并将其应用于高速列车牵引电机故障诊断与调节中,使其在存在未知牵
地理环境的异常震动通常预示着地质灾害等事件的发生,对异常震动事件的检测也成为降低人员伤亡和财产损失的有效手段。现有常见的地质震动监测设备通常为内含加速度传感器的传统测振仪,其识别准确率较高,但因为价格高、体积大等缺点无法进行大面积的部署。随着电子技术的飞速发展以及智能手机的全面普及,智能手机加速度传感器成为环境震动实践监测的新基础设施,利用普通用户的智能手机等电子设备实现异常事件的检测也成为新的研
随着电动汽车(Electric Vehicle,EV)市场的快速发展,严重影响和制约电动汽车动力性能的汽车电池相关核心关键技术的研究已成为一个热点问题。其中,电池的充电状态(State of Charge,SOC)在电动汽车电池管理系统(Battery Manage System,BMS)中极为重要。它可用于表征汽车电池的剩余能量及其工作状态,从而合理安排充电时间及其他相关事项,以确保电动汽车的可
凸二次规划问题在许多领域中都有广泛的应用,系统分析,组合优化等诸多科学问题与工程问题都可以表述为凸二次规划问题后求解。一般而言,二次规划问题在经过拉格朗日法处理后可以利用神经网络求解。但是传统微分神经网络在面对大规模实时二次规划问题时表现不佳,存在求解精度较低以及收敛时间过长的缺点。基于此,本文提出了新型积分动态学习网络和变参积分动态学习网络。仿真实验证明这两种神经网络都有收敛速率快,求解精度高的
随着国家经济水平的迅速提升和道路建设的快速发展,近十年我国各城市机动车数量不断增加。交通问题已经成为城市管理的重要问题,给城市社会经济发展造成严重影响。智能交通系统是未来交通系统的重要方向。车辆细粒度分类是智能交通视频分析的关键技术。车辆细粒度分类的目的是给定一帧车辆的视频图像,识别出该车辆的具体车型。车辆细粒度分类已有不少研究成果,然而依然是亟需解决的难题,面临类内差异过大和类间差异过小的挑战。
钢轨作为铁路的重要组成部分,在长期反复荷载作用下,容易出现表面伤损和内部伤损,且主要表现为表面伤损。钢轨表面伤损不仅会使列车产生振动、噪音,影响列车的运行质量,并且当伤损发展到一定程度,将导致钢轨断裂,甚至导致列车出轨、倾覆等事故,影响列车运行安全。因此,对钢轨表面伤损检测进行研究具有重要的意义。在常用的钢轨表面伤损检测方法中,涡流检测、漏磁检测、激光超声检测、声发射检测等物理检测方法和传统图像处
人群计数出现时间很早,最早的时候人们采用检测、回归的方法进行人群计数。随着深度学习的发展,人们也开始使用深度学习的方法得到一张图片的人数。在地铁场景中,实现人群计数有着很大的意义。本文按照人群密集程度将地铁站台场景划分为密集场景,将站厅和出入口场景划分为稀疏场景,分别进行计数。一、密集场景下静态人群计数网络。密集场景采用了自适应的远近景划分计数网络(Gr CNet)进行计数。该模型分为两个阶段,第