论文部分内容阅读
当前基于大规模机器学习(ML,Machine Learning)的智能系统的解决方案主要依赖于数据、算力以及算法,而随着数据量的指数级增长、摩尔定律的失效以及神经网络(NN,Neural Network)规模的膨胀,单机已经无法承载巨大的数据量和算力需求,因此分布式机器学习(DML,Di stributed Machine Learning)正在成为研究的热点。目前所使用的分布式框架多是基于云端的大规模训练集群,这需要将数据上传到云端,并将数据均匀分片到分布式计算节点中去,从而带来不可忽视的时延。此外,主流的分布式机器学习框架如参数服务器框架(PS,Parameter Server),多是通过中心节点来完成整个网络中节点参数的汇总、平均以及分发,这使得中心端较大的计算开销和中心链路的通信负担成为了整个分布式架构的瓶颈。而在即将到来的5G(Fifth Generation)网络中,网络中大量同时具有存储、计算和通信能力的节点共同构成了一个非中心化的天然分布式计算网络,这使得传统的中心化分布式框架不再适用。在这样的大数据计算网络中,我们基于已有的分布式框架进行改进,充分利用每个节点的计算资源和节点之间的通信资源,提出了结合中心化模型集成和非中心化样本迁移的分布式机器学习框架。我们的主要研究内容如下:首先,我们考虑将大数据网络的节点中非独立同分布(Non-IID,Non-identical and In-dependently Distributed)的数据保留在本地而不参与云端的统一配置,这些数据参与节点本地的模型计算。为了解决中心链路的通信瓶颈,我们利用模型集成代替了传统参数服务器架构中的模型平均算法。不同于模型平均,模型集成算法的收敛性能不受网络和损失函数非凸的影响,并且在单模型偏差较低的情况下还具有较好的集成增益。其次,为了提升单模型偏差较高情况下全局模型的收敛性能,我们引入了节点之间的样本迁移,通过非中心化链路的通信来较少节点数据的分布差异。基于迁移学习的启发,我们使用加权迁移来对迁移样本重新加权以提升迁移效率,并设置迁移权重来及时地阻断迁移过程以降低通信开销。最后,为了进一步提升非中心化链路的通信效率,我们提出了基于元学习的自适应迁移过程。我们为每个节点都配置了基于“元学习机-基学习机”的双层学习框架,使用本地的元学习机指导本地迁移过程,以提升基学习机的性能。元学习机在权衡通信和性能增益的前提下,自适应地决定该节点下次最优的传输策略。相比于传统的迁移策略来说,基于元学习机的迁移方式对样本的迁移更具有挑选性和前瞻性,可以带来更低的通信开销以及更好的性能提升。我们提出的基于混合传输的分布式框架包含了非中心化和中心化链路,传输对象包含了模型参数和训练样本。这样的架构充分挖掘了大数据网络中的通信和计算资源,使得传统框架中中心化的通信和计算负担下放到非中心化的链路中。同时,该算法架构使得模型学习过程和数据传递过程紧密地结合在一起,计算和通信的深度融合意味着大数据网络更加地智能化。