基于Spark的机器学习自动化调参系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lang_tianhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和大数据技术的发展,机器学习技术成为学术界和企业界的热点。然而机器学习涉及大量理论知识,同时机器学习模型包含大量参数,需要有丰富的经验才能设计一个高效的模型。为了促进机器学习技术更广泛的应用,有效降低开展机器学习应用的门槛,自动化机器学习(Automatic Machine Learning,简称AutoML)技术应运而生,即通过对机器学习各环节提供自动化技术,让初学者也可以开展机器学习模型训练和应用。  AutoML的核心是机器学习模型的自动化调参,即自动选择超参数。Spark系统已经成为一种通用的大数据计算引擎,Spark MLlib包含丰富的机器学习算法,但是目前只支持简单调参方法,不支持贝叶斯优化等高级超参优化方法,基于Spark实现分布式机器学习调参系统面临多个挑战:(1)目前,分布式环境下贝叶斯优化的相关研究大多是同步Batch方式,如何基于Spark实现更高效的异步Batch贝叶斯优化算法是一个挑战:(2)Spark基于数据并行技术已支持单个机器学习模型高效并行训练,不支持采用模型并行技术加速多个模型的并行训练;(3)单个模型训练速度是整个调参过程效率的基础,Spark内置的梯度下降算法只能获得次线性收敛速率,Spark不支持具有线性收敛速率的模型求解算法。  针对上述三个关键问题,本文分别给出技术方案:(1)通过构建一个单节点共享模型参数池,支持异步模型训练任务的参数更新,实现一种异步Batch贝叶斯优化调参方法,在相同测试集和测试环境下,比同步贝叶斯优化算法具有2倍加速;(2)针对采用梯度下降算法求解的机器学习模型,其具有相同的执行逻辑过程,本文通过对模型执行逻辑过程进行细粒度分解,共享数据准备和数据采样中间结果,合并梯度计算任务,实现一种细粒度多模型并行执行方法,实验表明在选用的测试集上具有2倍左右加速。(3)针对采用梯度下降算法求解的机器学习模型,基于具有线性收敛速率的单机随机方差削减梯度算法SVRG,设计分布式模型优化求解算法topkSVRG,通过与Mini-Batch SGD、Cocoa、Splash等方法比较,topkSVRG可以在高精度要求下更快的收敛。  本文设计一个基于Spark的机器学习自动化调参系统,对提出的三个关键技术进行系统实现,提供可视化界面支持用户选择数据集和模型进行自动调参,并支持可视化查看参数选择结果。通过多个测试集验证了系统的有效性。
其他文献
贸易流程十分复杂,牵涉到很多部门、组织和公司等。快速而又准确的描述一个贸易流程可以极大的提高工作的效率,这时候就需要一个好的流程建模工具。本文的研究重点就是开发一
现代社会已经步入信息化社会,信息技术在经济发展、社会进步以及人民生活等各个方面起着至关重要的作用。随着移动通信和Internet的迅速发展,互联网与电信网之间的边界越来越
如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。在自然语言处理中,以大量真实语料构建语
多媒体会议系统提供了一种远程视频会议的功能,包括基本的音视频功能和其他辅助功能。多媒体会议系统原本是在IPv4网络上进行设计的,只有IPv4的用户可以创建会议,加入会议,但
当今,随着网络复杂性的日益增长,通信网络面临着越来越多如何有效保障网络服务质量(Quality of Service, QoS)的挑战。为此,人们提出了认知网络(Cognitive Network, CN)作为
无线传感器网络由大量能量受限制的传感器节点通过自组织方式组成,节点之间协作完成网络的数据传输。然而由于节点体积和成本的限制,传感器节点通常在计算能力、通信能力和能
当今世界web2.0几乎已经得到了突飞猛进的发展,信息资源在现阶段快速增长,网络数据急剧倍增。在这种形式下对数据的索引和查找的迫切性需求促进了各大互联网公司开发搜索引擎
近年来我国医疗信息化建设飞速发展,很多医院都建立了自己的电子病历系统。随着电子病历被广泛应用于病人转诊、远程会诊等临床工作,迫切需要建立区域电子病历集成平台,实现不同
随着经济的发展及贸易的全球化,跨地域的沟通交流日益频繁。人们需要快速便捷的沟通交流方式,来满足日常工作的需求。多媒体会议系统支持两个及以上不同地方的个人或群体,通
随着具有Wi-Fi功能的智能手机的推广和移动Ad-hoc网络的不断发展,智能手机之间通过Wi-Fi直接互联变成可能。Magic-hookup系统正是基于移动Ad-hoc网络,实现了两部手机之间直接