论文部分内容阅读
机器学习的训练往往需要海量的数据,数据的丰富性、多样性很大程度决定了模型的好坏。大数据时代带来数据的爆炸式增长,推动了机器学习分布式训练的迅速发展,但当前的讨论多是集中在高性能计算机集群环境。然而,在实际生产环境中,这些宝贵的数据资源是有归属权的,各大拥有数据的公司和组织对隐私、利益等要素的考量,使得先将数据集中再进行集群式的训练的方案难以实施,故本文设计了避免数据跨组织迁移的机器学习远程并行训练算法。相较高性能计算机集群环境,跨组织远程协作环境下机器学习训练算法的设计还需要重点解决数据分布不均、各训练节点能力的差异、节点间互相不完全可信等技术问题。且由于组织间关系对等不希望引入第三方加以干涉,故传统的有中心星型组织结构也将失效。首先,针对上述问题,本文提出了分簇无中心混合梯度下降法。1.本文分析了跨组织计算节点的组织特点,提出了分簇无中心协同模型,该模型除了具有传统参数服务器模型固有的优势,还可以将同组织、异组织的主要矛盾分别考虑,其无中心的结构更符合组织间关系对等的需求。2.提出了基于该协同模型的分布式梯度下降训练算法,该算法依据簇间、簇内不同的协同特点采用了不同的同步方式。特别的,簇间协同采用本文提出的无中心有限异步协议,该协议能在缺少全局参数服务器集中式管理的情况下实现有限异步。为了提升分簇无中心混合梯度下降法的效果,本文进一步对该算法的簇内负载不均问题与簇间通信问题提出了优化方案。1.为了提升簇内训练的执行效率,避免受同步屏障影响慢节点拉低系统吞吐量,提出了用于簇内系统的负载均衡算法,相较一般负载均衡算法,该算法将节点间的可信任程度纳入考量,在安全性和高效性之间作了折中。2.考虑到簇间通信需要跨越第三方网络,为了提升簇间通信的安全性和高效性,依据簇间更新信息的特点,提出了簇间通信优化协议,相较一般的广播通信,该协议能有效降低训练所需簇间通信量。以上方法的有效性均通过了理论分析、仿真验证,为跨组织进行分布式机器学习训练提供了一套安全、稳定、有收敛性保障的解决方案。该方案避免了原始数据的迁移,消除了组织间的顾虑,沟通了数据“孤岛”,可更大程度挖掘数据价值。