基于数据和模型混合传输的分布式机器学习框架

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wxj1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前基于大规模机器学习(ML,Machine Learning)的智能系统的解决方案主要依赖于数据、算力以及算法,而随着数据量的指数级增长、摩尔定律的失效以及神经网络(NN,Neural Network)规模的膨胀,单机已经无法承载巨大的数据量和算力需求,因此分布式机器学习(DML,Di stributed Machine Learning)正在成为研究的热点。目前所使用的分布式框架多是基于云端的大规模训练集群,这需要将数据上传到云端,并将数据均匀分片到分布式计算节点中去,从而带来不可忽视的时延。此外,主流的分布式机器学习框架如参数服务器框架(PS,Parameter Server),多是通过中心节点来完成整个网络中节点参数的汇总、平均以及分发,这使得中心端较大的计算开销和中心链路的通信负担成为了整个分布式架构的瓶颈。而在即将到来的5G(Fifth Generation)网络中,网络中大量同时具有存储、计算和通信能力的节点共同构成了一个非中心化的天然分布式计算网络,这使得传统的中心化分布式框架不再适用。在这样的大数据计算网络中,我们基于已有的分布式框架进行改进,充分利用每个节点的计算资源和节点之间的通信资源,提出了结合中心化模型集成和非中心化样本迁移的分布式机器学习框架。我们的主要研究内容如下:首先,我们考虑将大数据网络的节点中非独立同分布(Non-IID,Non-identical and In-dependently Distributed)的数据保留在本地而不参与云端的统一配置,这些数据参与节点本地的模型计算。为了解决中心链路的通信瓶颈,我们利用模型集成代替了传统参数服务器架构中的模型平均算法。不同于模型平均,模型集成算法的收敛性能不受网络和损失函数非凸的影响,并且在单模型偏差较低的情况下还具有较好的集成增益。其次,为了提升单模型偏差较高情况下全局模型的收敛性能,我们引入了节点之间的样本迁移,通过非中心化链路的通信来较少节点数据的分布差异。基于迁移学习的启发,我们使用加权迁移来对迁移样本重新加权以提升迁移效率,并设置迁移权重来及时地阻断迁移过程以降低通信开销。最后,为了进一步提升非中心化链路的通信效率,我们提出了基于元学习的自适应迁移过程。我们为每个节点都配置了基于“元学习机-基学习机”的双层学习框架,使用本地的元学习机指导本地迁移过程,以提升基学习机的性能。元学习机在权衡通信和性能增益的前提下,自适应地决定该节点下次最优的传输策略。相比于传统的迁移策略来说,基于元学习机的迁移方式对样本的迁移更具有挑选性和前瞻性,可以带来更低的通信开销以及更好的性能提升。我们提出的基于混合传输的分布式框架包含了非中心化和中心化链路,传输对象包含了模型参数和训练样本。这样的架构充分挖掘了大数据网络中的通信和计算资源,使得传统框架中中心化的通信和计算负担下放到非中心化的链路中。同时,该算法架构使得模型学习过程和数据传递过程紧密地结合在一起,计算和通信的深度融合意味着大数据网络更加地智能化。
其他文献
甘蔗杆状病毒(Sugarcane bacilliform virus,SCBV)隶属于花椰菜花叶病毒科,杆状DNA病毒属,是侵染甘蔗的重要病原物之一,在多数种植甘蔗的国家和地区普遍发生,对甘蔗产业构成
服务机器人产业正在帮助人类社会各行各业实现产业迭代升级,现代移动服务机器人是通过多传感器集成与融合实现传感器系统对环境中的动态性和不确定性进行感知与观测,而要完成
稻瘟病菌能够侵染以水稻为主的重要农作物,同时也是研究丝状真菌的重要模式生物。Rab GTPase是Ras超家族的成员之一,通常作为分子开关在囊泡的形成、运输、融合等过程中发挥
近年来,石墨烯、硅烯等二维材料在储能领域的应用倍受关注,是当前的研究热点之一。一种新型二维材料,过渡金属碳化物或氮化物(MXene)在2011年被首次合成,被认为是一种具有较大应用前景的电池电极材料。在其制备过程中,MXene将不可避免引入缺陷,如空位等。这些缺陷对其储能性能的影响尚未见系统的理论研究。在本文中我们使用第一性原理计算的方法,研究了空位(包括碳空位VC和钛空位VTi)对锂离子在单层T
近年来,有学者发现纳米裂纹可用于制作纳米尺度图形,并应用于众多领域。例如,制作由柔性聚合物基底和带有纳米裂纹的金属薄膜构成的超灵敏应变传感器。纳米裂纹的形貌(密度、
N-芳基甘氨酸酯类化合物是生活中常见的氨基酸酯,其本身可以作为合成其它重要天然产物及药物分子的前体物质,如1,2,3-三唑化合物、喹啉稠合内酯、喹啉-2-羧酸酯化合物以及1,3
金属有机框架(MOFs)是一种有机-无机杂化材料。由于其具有较高的比表面积、可调的孔尺寸及结构等特点,使其在包括有机染料吸附在内的众多领域有广泛应用。经研究发现金属有机框
丝素是由蚕合成与分泌的天然蛋白质,主要由丝素和丝胶组成。具有优良的力学性能和生物相容性,目前已广泛应用于生物材料,尤其是在组织工程方面。大量研究表明,家蚕丝素能较好的支持多种细胞的粘附、增殖或分化,而对野蚕(天蚕和柞蚕)丝素的研究略少。但是野蚕丝素的氨基酸组成中分布着高度重复的RGD序列,RGD短肽也是存在于多种细胞外基质中的一种三肽,已被证明与细胞粘附性有关,具有调控细胞行为的功能。但并不是具有
党的十八大以来,以习近平同志为核心的党中央高度重视扶贫工作,在2015年召开的中央扶贫工作会议上确定了坚决打赢脱贫攻坚战,确保到2020年所有贫困地区和贫困人口一道迈入全
铟是一种战略稀缺资源,随着科学技术的快速发展,许多高端技术领域对于铟产品的纯度要求越来越高。真空蒸馏法作为一种流程短、绿色环保的铟提纯方法,被广泛进行研究和应用。真空蒸馏法提纯粗铟的过程主要分为两个步骤:第一步,低温蒸馏将Cd、Zn、Pb等易挥发杂质金属挥发脱除;第二步,高温蒸馏将铟尽可能单独蒸馏出来,而难挥发杂质金属Al、Sn、Cu、Fe等留在残留物当中。这样经过低、高温两段的真空蒸馏才可达到提