基于参数服务器的分布式机器学习研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sisisi22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展及互联网的广泛应用,各行各业积累了大量的应用数据。如何对这样海量的数据进行高效而精准的学习成为亟待解决的难题,引起了学术界和工业界的广泛关注。面对这样的难题,前人提出了一系列分布式机器学习相关的理论及方法,但是这些方法主要是从单一的系统或者算法角度来提供问题的解决方案,难以在实际应用中达到令人满意的效果。本文结合前人的工作,从系统和算法两方面进行了研究和探索,为分布式机器学习提供了新的参数服务器架构及优化算法,并将其应用到了实际的机器学习算法中,在保证精度的情况下,有效的提高了算法的效率。本文主要工作包括:  针对分布式机器学习欠缺灵活的分布式平台的问题,本文设计实现了参数服务器架构,并对其通信和容错两方面进行了优化。在通信方面主要进行的优化,包括键值向量存储、有界push和pull操作,消息压缩等。在容错方面,主要采用一致性哈希及副本冗余等措施来进行优化。在实验中,充分验证了本文系统的灵活性和高效性,及相应优化措施的有效性。  针对分布式优化算法所面临的通信方面的挑战,本文基于参数服务器的分布式环境,提出了有界异步拒绝算法。有界异步拒绝算法,主要包括三个部分:有界拒绝、数据服务器和自适应的学习率调节。在实验中,充分验证了本文提出方法的高效性和鲁棒性,同时也验证了以上优化措施的有效性。  针对稀疏逻辑回归算法和梯度提升回归树算法的并行化,本文基于参数服务器的分布式环境,提出了其相应的并行化方法。对于稀疏逻辑回归算法,采用了近邻梯度的解法,并对其进行并行化。而对于梯度提升回归树算法,将其回归树构建过程进行了并行化。在实验中,充分验证了这两个算法并行化的高效性和有效性。
其他文献
随着虚拟现实和三维仿真技术的发展,越来越多的针对特定领域的仿真系统应运而生。而针对目前起重吊装行业中手工制定吊装方案的繁重和低效,且无法直观地对吊装方案的有效性和
随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量的已知类别文本来帮
由于XML是一种简单、开放、描述性的语言,随着信息技术的不断发展,XML不仅成为Internet上数据表达与集成的标准,更是被用于搜索引擎、电子商务、应用集成等多个方面,受到广泛
在“三网合一”的发展趋势下,西南交通大学四川省网络通信技术重点实验室提出了以“面向以太网的物理帧时槽交换技术”(EPFTS-Ethernet-oriented Physical Frame Timeslot)为
设计初期的错误,严重的影响着实现阶段的代码验证、测试、及运行维护期的成本和工作量。在应用建模阶段尽量减少错误,对提高整个软件开发的效率和质量,具有重要的理论研究意
因特网显著改变了人们的工作和生活方式,因此人们对因特网的研究和应用投入了很大的热情。为了解因特网的现状并预测它的发展趋势,研究人员越来越重视对因特网的拓扑结构和拓
智能客户端适用于多种终端设备,是针对移动应用的主流解决方案之一,集成了胖客户端和瘦客户端应用的优点,开辟了新的应用模式,提供内容丰富且响应迅速的用户体验、脱机工作能
模型拟合是计算机视觉中一个重要的研究领域,是鲁棒统计学、机器学习和图像处理等多个学科的交叉研究方向。模型拟合的主要任务是能够有效地拟合观测数据中所蕴含的所有模型实
语义问题一直是自然语言处理领域的一个难点。近年来,随着深度学习技术的逐渐兴起,越来越多的研究采用深度神经网络对语义相关的问题进行建模。在语义层面上开展研究,能更为有效
服务注册中心是SOA的重要组成部分,它负责服务的注册、发现和管理等功能,是维护SOA计算模式正常运行的基础。传统的服务注册中心采用集中式结构。随着服务数量不断增加,集中