机器学习远程并行训练算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:caonisbma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习的训练往往需要海量的数据,数据的丰富性、多样性很大程度决定了模型的好坏。大数据时代带来数据的爆炸式增长,推动了机器学习分布式训练的迅速发展,但当前的讨论多是集中在高性能计算机集群环境。然而,在实际生产环境中,这些宝贵的数据资源是有归属权的,各大拥有数据的公司和组织对隐私、利益等要素的考量,使得先将数据集中再进行集群式的训练的方案难以实施,故本文设计了避免数据跨组织迁移的机器学习远程并行训练算法。相较高性能计算机集群环境,跨组织远程协作环境下机器学习训练算法的设计还需要重点解决数据分布不均、各训练节点能力的差异、节点间互相不完全可信等技术问题。且由于组织间关系对等不希望引入第三方加以干涉,故传统的有中心星型组织结构也将失效。首先,针对上述问题,本文提出了分簇无中心混合梯度下降法。1.本文分析了跨组织计算节点的组织特点,提出了分簇无中心协同模型,该模型除了具有传统参数服务器模型固有的优势,还可以将同组织、异组织的主要矛盾分别考虑,其无中心的结构更符合组织间关系对等的需求。2.提出了基于该协同模型的分布式梯度下降训练算法,该算法依据簇间、簇内不同的协同特点采用了不同的同步方式。特别的,簇间协同采用本文提出的无中心有限异步协议,该协议能在缺少全局参数服务器集中式管理的情况下实现有限异步。为了提升分簇无中心混合梯度下降法的效果,本文进一步对该算法的簇内负载不均问题与簇间通信问题提出了优化方案。1.为了提升簇内训练的执行效率,避免受同步屏障影响慢节点拉低系统吞吐量,提出了用于簇内系统的负载均衡算法,相较一般负载均衡算法,该算法将节点间的可信任程度纳入考量,在安全性和高效性之间作了折中。2.考虑到簇间通信需要跨越第三方网络,为了提升簇间通信的安全性和高效性,依据簇间更新信息的特点,提出了簇间通信优化协议,相较一般的广播通信,该协议能有效降低训练所需簇间通信量。以上方法的有效性均通过了理论分析、仿真验证,为跨组织进行分布式机器学习训练提供了一套安全、稳定、有收敛性保障的解决方案。该方案避免了原始数据的迁移,消除了组织间的顾虑,沟通了数据“孤岛”,可更大程度挖掘数据价值。
其他文献
过敏性紫癜又称出血性毛细血管中毒症,是一种微毛细血管变态反应性出血性疾病.基本病变是广泛的毛细血管及小动脉无菌性炎症[1].目前尚无特效治疗方法,既往临床上多采用对症
<正> 标枪运动员如何才能取得最佳成绩依赖于许多因素。我们从力学的观点出发对标枪的运动作了初步探讨。标枪动力学在文献[1]中有过分析,但其中关于标枪在飞行过程中压力中
当前,小微企业是我国社会主义市场经济的重要组成部分也是我国经济发展中不可或缺的重要力量,在我国社会主义市场经济发展中发挥着重要的作用。我国小微企业虽然再发展中规模较小,但是数量众多,分散于我国的各行各业中,国内相对高度市场集群化;在促进经济社会发展,在增加社会就业机会,加快技术创新发展,维护社会稳定起到了越来越重要的作用。电子商务创新发展给小微企业带来了一个非常好的契机,电子商务的运用大幅度降低公
探讨了具有离散时滞的离散型神经网络系统,并给出了这类神经网络的全局指数同步的一个有效结论.
病例:患者李某,女,33岁,农民,因月经量多2年余,伴头昏乏力半年,阴道持续性流血1月余,于2002年6月11日入院,查体一般情况好,贫血貌,心肺正常,妇查宫颈光滑,无肿大及异物脱出,
对广州市南沙区榄核河沉积物中5 种典型重金属(Cu、Zn、Pb、Ni 和Cr)的含量水平进行分析,并在此基础上对各元素进行相关性分析和地累积指数评价.结果表明,榄核河沉积物重金属污
白光干涉测量法适用于 MEMS 器件的三维表面形貌测量。通过 Matlab 仿真,讨论了在局部峰点插值法中采用三次样条插值的优势,从测量速度、测量精度、抗噪能力和扫描步距等方面对
精神科病人因受病情支配常会出现攻击性暴力行为,给护士造成生理和心理损害;护士在进行治疗护理操作中因针刺或利器引起物理性损伤,同时在精神科病房相对封闭的空间中交叉感
目的观察用全自动细胞处理系统(ACP215)与手工方法制备冰冻解冻红细胞后的质量指标,比较2种方法制备的冰冻解冻红细胞的差异。方法随机取需冰冻保存的红细胞制剂分2组:A组25例用
随着现代医学的发展,在临床使用中不断出现一些新的药物,但相应的药物配伍禁忌却在现有的“静脉用药配伍禁忌表”中很难查找到。我们在临床治疗过程中发现洛美沙星与10%氯化钾注