【摘 要】
:
得益于大数据、大模型、GPU集群的推动,人工智能技术飞速发展,但是在此基础上训练出更准确、表达能力更强的优秀人工智能模型绝非易事。这也促进了并行化、分布式的机器学习技术飞速发展。目前的分布式机器学习框架中,计算节点的参数计算和参数通信过程是串行紧耦合的,造成计算资源利用率不高。同时随着近年来专用高速计算硬件设备的快速发展,计算能力的增长遥遥领先于网络数据传输能力,且高速的计算设备使得分布式机器学习
论文部分内容阅读
得益于大数据、大模型、GPU集群的推动,人工智能技术飞速发展,但是在此基础上训练出更准确、表达能力更强的优秀人工智能模型绝非易事。这也促进了并行化、分布式的机器学习技术飞速发展。目前的分布式机器学习框架中,计算节点的参数计算和参数通信过程是串行紧耦合的,造成计算资源利用率不高。同时随着近年来专用高速计算硬件设备的快速发展,计算能力的增长遥遥领先于网络数据传输能力,且高速的计算设备使得分布式机器学习的参数更新更加频繁。参数通信已经成为分布式机器学习系统的性能瓶颈,如何降低系统通信计算时间比,平衡计算与通信,提高计算资源利用率,是提升分布式机器学习系统性能的关键。本文从算法层面和网络层面出发,研究分布式机器学习网络流量调度机制,优化分布式学习系统通信效率,提高分布式机器学习系统性能。1.从算法层面出发,研究基于多优先级多路径的分布式机器学习流量传输机制,优化在分布式训练环境下的反向传播算法。首先提出无等待反向传播算法,重叠反向传播计算过程和参数通信,赋予各层参数不同的通信优先级,提出基于优先级的无等待反向传播算法。解耦计算节点的计算与参数通信过程,降低系统通信计算时间比,提高计算资源利用率。然后基于各计算节点之间存在多条完全不重复的物理通信链路,设计了多路径并行参数同步方案,进一步降低参数通信时间占比,提升分布式机器学习系统性能。仿真表明,设计的算法可以降低分布式系统的通信计算时间比,具有良好的性能。2.从网络层面出发,研究分布式机器学习集群流量拥塞控制机制,尤其是基于参数服务器架构的分布式机器学习框架中的“TCP Incast”问题。设计了网络拥塞控制机制——SCC,通过动态调整源端发送速率,避免或缓解网络数据丢包而超时重传。降低参数通信时延,降低分布式机器学习系统通信时间占比,提升分布式机器学习系统的性能。实验仿真结果显示,与对比方案相比,SCC机制可以有效提高网络吞吐量,减少流完成时间,具有良好的性能表现。
其他文献
光纤随机激光器作为随机激光器的重要分支,相关研究人员已经揭示了其具有大范围波长可调性、窄线宽、高功率输出等特性。正是由于这些独特的优势,其已经在光纤传感、光成像、光通信等领域得到重要的应用。特别是在长距离光纤传感系统中,基于光纤随机激光的传感系统不仅具有传统光纤点式传感系统结构简单、抗电磁干扰、灵敏度高的特点,而且具有响应时间短、传感器可复用、精度不受光源波长漂移、链路温度变化影响等优势,非常适用
无线传感器网络(Wireless Sensor Network,WSN)中的移动目标跟踪算法需要保证较高的跟踪精度又不过多地消耗能量。高效的跟踪效果需要调度更多的移动传感器,然而调度移动传感器会产生大量的能耗。如何平衡跟踪精度与网络消耗之间的矛盾并设计合理的节点协同调度算法是WSN中面向目标跟踪的关键问题。本文分析了在本领域的研究背景以及研究现状,进而提出了面向移动目标跟踪的节点协同调度移动跟踪算
长期以来,大规模无线传感器网络(WSN)的能量问题都一直受到研究者的普遍关注。由于大规模分层网络架构下,无线传感器网络的各个节点通常都抛洒部署到很恶劣的环境下,无法更换电池,因此节能问题成为了关键。本文从节点能耗、能量均匀、业务服务质量和路由问题的角度出发,对目标的最大覆盖范围、Q覆盖集的问题、汇聚节点休眠的负载均衡和节能的路由算法进行了研究。在汇聚节点和传感器节点两个层面上,共同休眠带来能耗问题
为了缓解单个自动驾驶车辆的计算负担,移动边缘计算(Mobile Edge Comput-ing,MEC)作为一种可靠的计算模式被应用于车联网中,允许计算资源不足的车辆将计算量大且时延敏感的任务卸载到边缘节点的服务器上进行计算。在此背景下,为了减少任务执行的时延并提高系统资源利用率,结合移动边缘计算技术,本文研究了基于人工智能的车联网环境中的协同计算和资源分配策略。主要在两个场景下进行研究,分别是车
近年来,随着智能交通概念的普及,车牌检测与识别应用已经遍及我们生活的方方面面,包括小区的停车场收费系统、路口的违章监控系统、交警的移动手持警务系统等。伴随着深度学习的出现,基于神经网络的车牌检测与识别算法在识别准确率上得到了进一步的提升。与此同时,复杂多变的应用场景对算法的准确率提出了更高的要求,如何使系统稳定工作在更加复杂的环境成为了近年研究的重点。本文首先对国内外的相关工作进行了调研,从基于传
近年来,卷积神经网络(CNN)作为深度神经网络的子类得到了广泛的普及。CNN彻底改变了诸如自然语言处理,图像分类和语音识别等任务的执行。通常,CNN可以通过CPU、GPU、ASIC、FPGA等平台实现。在人工智能物联网(AIOT)设备方面的应用,对于便携性和低功耗有更高的要求,另外需要针对不同精度类型的算法模型设计不同的神经网络处理器。而论文提出了一种基于FPGA平台设计的混合精度神经网络处理器,
随着互联网应用的发展,网络容量的需求也在迅速增长,发展高速大容量的光纤通信系统迫在眉睫。但是高传输速率、大信道容量和长距离传输的研究却受到两种因素的限制:线性损伤,包括光纤损耗、色散、偏振模色散;非线性损伤,包括自相位调制、交叉相位调制、四波混频等。在长距离传输系统中,光纤非线性是限制信道容量和传输距离的重要因素之一,因此光纤非线性均衡技术在光纤传输中具有重要的现实意义。为了补偿光纤非线性效应,实
无人机(Unmanned Aerial Vehicle,UAV)编队在近几年凭借灵活性好、机动性强等多项优点在多个领域应用越来越广泛。无人机编队控制需要保证编队的队形形成、保持和避障,若采用不合适的控制方法,则会产生许多问题,如目标位置的振荡问题、目标不可达问题、避障不安全等。无人机编队任务分配需要为每个无人机分配执行任务集并决定任务执行顺序,实际情况下,各个任务之间存在资源需求的差异,各个无人机
SLAM(Simultaneous Localization and Mapping,SLAM)技术旨在估计自主移动机器人在陌生环境下的位置变化,同时构建包含空间几何信息的环境地图。当前,大部分开源的SLAM方案已经实现了静态场景下自主移动机器人大范围内的实时定位与稀疏地图构建。而传统的SLAM方案仍然存在以下问题:一是在动态环境下,无法避免行人等移动物体造成的漂移误差,因此在实际应用中受到一定的
目前焊接企业主要是通过人工来完成焊接信息的采集、监控并对焊接质量进行评估,成本高、效率低的同时,无法满足现代化焊接技术的需求。随着被称为信息物理系统融合的德国“工业4.0”的提出,我国提出了“中国制造2025”发展战略,工业生产将进入信息化、数字化、智能化的阶段,将智能生产和制造的实现视为现阶段发展的重点,随着各类智能传感器、无线通信技术在工业领域的广泛应用,以及深度学习理论在图像检测方向的发展趋