InfiniBand网络架构下分布式机器学习系统MXNet的性能优化研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：haivi2000

【摘要】

：

大数据为机器学习带来了机遇与挑战,一方面大数据允许机器学习训练更加复杂精确的模型进而发掘数据中的深度价值;另一方面功能强大的模型会产生109到1012数量级的参数,机器学

【作者】

：

吕宝财

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

InfiniBand RDMA MXNet 分布式机器学习系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据为机器学习带来了机遇与挑战,一方面大数据允许机器学习训练更加复杂精确的模型进而发掘数据中的深度价值;另一方面功能强大的模型会产生10⁹到10¹²数量级的参数,机器学习算法的迭代特性使得分布式节点之间需要频繁地传输这些参数,网络成为分布式机器学习系统的性能瓶颈。相比于传统以太网,高性能计算领域常用到的高速互联网络Infini Band及其提供的RDMA技术具有高带宽、低延迟、低CPU负载的优势,而如今像MXNet这些先进的分布机器学习系统还没利用这种性能优势。针对上述问题,本文主要工作如下:第一,测试与分析InfiniBand通信机制,确定了MXNet两种优化传输策略。通过分析InfiniBand架构,针对Infini Band所提供的通道语义和内存语义,实验测试SEND/RECEIVE操作、RDMA WRITE操作、RDMA READ操作在不同传输模式和不同传输消息大小下的性能表现。通过测试评估,发现UC模式下的SEND/RECEIVE更适合传输小数据,RDMA READ和UC模式下的RDMA WRITE更适合传输大数据。为MXNet确定了:SEND/RECEIVE+RDMA READ策略和SEND/RECEIVE+RDMA WRITE两种优化传输策略。第二,设计和实现了两种优化传输策略,替换MXNet系统本身传输模块使其支持RDMA。由于MXNet系统中的通信开销主要来源于迭代计算过程中ps-lite架构中worker节点和server节点之间的模型参数的交互,本文通过分析并改进系统中参数传递流程使其支持RDMA传输,具体设计和实现了之前提出的两种传输优化策略。实验结果表明两种优化策略改进后的ps-lite在传输操作push/pull上比未改进的ps-lite性能提升2～3倍。在MXNet上运行具体的机器学习应用时,改进的MXNet比未改进的MXNet的运行速度提升1～3倍。通过比较两种优化策略性能上的差异以及原因,为传输不同参数大小的应用如何选择两种优化策略提供了参考。第三,测试与分析RDMA管理内存的时间开销,设计并实现了高效的MXNet消息内存管理机制。从实验测试RDMA内存注册和解注册操作在不同内存大小的开销中发现,相比于传输操作,两种操作开销不容小觑。因此提出分开管理大小消息内存的方法:小消息所用内存只注册和解注册一次,并通过memcpy实现小消息内存的重用;大消息内存发送时再注册,通过实验确定了区分大小消息的内存阈值。最后,基于Boost库提供的fast＿poll＿allocator设计和实现了支持多线程的小消息内存池,能够实现内存重用和大大减少注册和解注册操作的频率,并且通过多个小消息内存池减缓多线程的竞争。

其他文献

精铸模料显微组织初探

作者通过显微分析及热分析法对石蜡基二元系和松香基(松香衍生物)二元系的显微结构进行了研究,指出前者大多是液态完全互溶、固态部分互溶的共晶二元系,而后者全部是液态部分

期刊

二元系松香基石蜡基聚合松香显微组织

TA31合金在盐酸溶液中的腐蚀行为研究

海洋石油开采和西南酸性油田开采的环境一般具有强腐蚀性的特点,对合金无缝管的耐蚀性要求越来越高,钛合金由于具有很好的综合性能成为这种苛刻环境的理想材料。但在这种苛刻的环境中,钛合金表现出的抗腐蚀性能还远远不足,所以需要掌握钛合金在这种环境中的腐蚀行为,并研究影响钛合金耐蚀性的因素,找到提高钛合金抗腐蚀性能的方法。本文主要以TA31合金为实验材料,对其进行不同的冷变形和热处理,观察不同工艺处理后的TA

学位

钛合金组织抗腐蚀性能相含量晶粒尺寸第一性原理计算

虚拟团队这样管对话虚拟领导力专家佩妮·普兰

有人说,新冠肺炎疫情将重新定义这个时代。全球新冠肺炎疫情之下,不少人被迫在家办公,《虚拟领导力》(Virtual Leadership)火速成为畅销书。该书畅销的背后是项目从业者的困

期刊

团队建设领导力领导者

基于MMC的柔性多状态开关控制策略研究

随着我国能源转型的不断推进,大量的分布式电源将广泛地接入配电网,将给配电网带来电压越限、双向潮流和馈线功率失衡等问题。由于我国配电网网架结构薄弱,大多采用闭环设计

学位

柔性多状态开关模块化多电平换流器配电网反馈线性化滑模控制

一种轮式移动机器人的路径规划与轨迹跟踪控制

移动机器人作为一个集成环境感知、动态规划、行为控制等多种功能于一体的综合系统,目前已广泛应用于工业、航天、军事、民用等领域。移动机器人通常需要在一些未知或复杂的

学位

移动机器人路径规划轨迹跟踪事件触发控制位置受限

基于物联网的农村区域水环境智能监测及预测方法研究

农村水环境的质量直接关系到农业灌溉用水、农村饮用水的安全,为了密切配合“绿水青山”的国家战略,建设生态宜居美丽乡村,亟需开展农村区域水环境智能监测及预测方法研究工

学位

农村区域水环境监测系统建模与性能分析数据融合水质中长期预测

超高压喷射注浆施工环境影响实测分析

超高压喷射注浆技术(RJP工法)为城市地下空间开发深层地下水控制、深层软基加固等提供了一种有效的手段,其应用越来越广泛。RJP工法通过超高压水和超高压水泥浆液接力切削土

期刊

超高压喷射注浆RJP工法施工影响土体侧移地表沉降

党建为“核”，文化为“魂”——国网新乡供电公司打造高质量发展“动力源”

国网河南新乡供电公司积极创新文化建设实践路径和方法载体,充分发挥党组织的政治核心、政治引领作用和党员的先锋模范带头作用,以培根、筑魂、加力、添彩、增亮"十字方针"为

期刊

加强党的建设河南新乡创新文化建设实践路径企业党建工作党建引领动力源高质量发展供电公司党员领导干部新乡市

Petuum图计算系统中query加速算法的设计与实现

随着大数据时代的到来,以社交网络为代表的图数据规模迅速增长,同时图query查询的规模也在增加,但是如何高效地利用超大规模图数据进行查询的领域仍有许多问题需要解决,这些需求都指向发展具有更高性能的query加速算法。虽然目前已经发展出成熟的大数据平台,例如MapReduce和Spark等,但是由于图数据其具有的独特特点,即节点之间的依赖性较强,节点之间需要大量的数据传输;同时图计算的过程中存在大量

学位

Petuum图计算系统查询加速SSP内存计算内存共享

肺隐球菌病69例临床特点分析

目的:探讨肺隐球菌病的临床影像等特点,加深对本病的认识,从而减少误诊和漏诊。方法:回顾性分析2013年8月至2019年2月在苏州大学附属第一医院住院治疗的肺隐球菌病患者的临床

学位

肺隐球菌病临床表现胸部CT诊断治疗

InfiniBand网络架构下分布式机器学习系统MXNet的性能优化研究与实现

与本文相关的学术论文