梯度提升决策树(GBDT)并行学习算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:mqj0712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GBDT(Gradient Boosting Decision Tree)是一个应用广泛、效果好的监督式机器学习模型。它于2001年由Friedman提出,由决策树(Decision Tree)和梯度提升(Gradient Boosting)组合而成。它在实践中被证明是一个很高效的模型,被广泛应用于搜索排序,广告点击率预测等,给工业界带来了巨大的效果提升和收益。随着互联网时代的到来,更多的数据可以被获取到。在机器学习中,更多的数据也意味着更好的效果,所以,用大数据来训练机器学习模型是很有必要的,但这给GBDT带来了挑战。首先GBDT的学习算法是一个中心化算法,需要把所有数据都加载在内存中,当数据太大时,单个机器可能无法加载全部数据,没办法进行学习。并且GBDT学习算法的复杂度和数据的大小有关,当数据很大时,学习会变得很慢。所以在大数据的场景下,对GBDT进行并行处理是非常有必要的。  本文的主要研究内容是GBDT并行算法,解决在大数据场景下,GBDT并行遇到的问题和挑战。本文首先介绍了关于GBDT的算法及其优化的一些算法,给出了详细的算法和理论分析;接着调研了现有GBDT的并行算法,按种类可以分为叶子并行(Leaf Parallelization)、特征并行(Feature Parallelization)和数据并行(Data Parallelization)。在对这些算法进行详细的研究后,发现这些并行算法都存在着不足:叶子并行受到内存限制,且通信量太大;特征并行无法并行整个学习过程;数据并行通信量太大。这些算法都不能满足在大数据场景下的并行需求。在这个基础上,本文提出了基于选举的并行GBDT算法,这个算法利用了大数据优势,用选举的方法降低特征候选集的数量,从而大幅降低并行中的数据通信量。本文在大规模数据集上进行实验。实验表明,本文提出的并行算法快速有效,并行效率高,在不损失精度的情况下比其他并行算法快速。
其他文献
智能客户端适用于多种终端设备,是针对移动应用的主流解决方案之一,集成了胖客户端和瘦客户端应用的优点,开辟了新的应用模式,提供内容丰富且响应迅速的用户体验、脱机工作能
模型拟合是计算机视觉中一个重要的研究领域,是鲁棒统计学、机器学习和图像处理等多个学科的交叉研究方向。模型拟合的主要任务是能够有效地拟合观测数据中所蕴含的所有模型实
语义问题一直是自然语言处理领域的一个难点。近年来,随着深度学习技术的逐渐兴起,越来越多的研究采用深度神经网络对语义相关的问题进行建模。在语义层面上开展研究,能更为有效
服务注册中心是SOA的重要组成部分,它负责服务的注册、发现和管理等功能,是维护SOA计算模式正常运行的基础。传统的服务注册中心采用集中式结构。随着服务数量不断增加,集中
随着计算机技术的发展及互联网的广泛应用,各行各业积累了大量的应用数据。如何对这样海量的数据进行高效而精准的学习成为亟待解决的难题,引起了学术界和工业界的广泛关注。面
随着多媒体技术的发展,多媒体数据已成为信息处理领域中主要的媒体形式。其中,音频信息在多媒体信息中占有非常重要的地位。音频数据是一种非语义符号表示和非结构化的二进制
随着网络技术的飞速发展和企业信息化的推进,将传统监控系统与Web技术相结合的模式成为远程监控系统研究和开发的热点,构建基于Web的监控系统成为监控领域发展的方向之一。远
自组织链表是针对搜索问题提出的,它能够在响应未知访问请求序列的过程中不断调整节点位置,使链表结构逐渐进入一个能充分利用访问请求序列特性的状态,从而降低总体访问代价,
无线传感器网络是在微电子、无线通信和嵌入式系统等技术的快速进步中发展起来的一种新型网络。它能够实时监测、感知、采集和处理各种监测对象的信息,具有十分广阔的应用前
煤岩突出是煤矿生产中的重大灾害之一,它是指煤、岩石以及瓦斯中的能量突然释放或爆发性的喷出,即煤、岩石以及瓦斯在极短的时间内向巷道或工作面大量涌出的过程,通常也称为