基于工作流相似性的Hive自动参数优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kang543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,分析海量数据并从中提取出具有价值的信息受到越来越多企业的关注。海量数据分析技术蓬勃发展的趋势下,Map Reduce模型被提出并得到了广泛应用,其为科研人员和数据分析人员提供了有效地分析大数据的方法。而对于不擅长编程的用户,利用Hive这样基于类SQL语句执行Map Reduce任务的数据仓库,可以进一步降低使用Map Reduce的难度。为了获得更好的执行效率,在执行Map Reduce任务时,合理地设定运行参数至关重要。类似地,Hive也存在着许多动态可调节的性能参数。人们往往需要依经验进行参数的设定,这给数据分析人员增加了额外的工作。若能让这一过程对用户透明化,让用户更关注业务本身,这将显著地提高数据分析的生产力。本课题提出了基于工作流相似性的办法来自动化地设定最优的Hive任务参数,解决基于经验设置参数而导致的性能问题,提升集群效率。课题中第一部分依据Hive任务的执行计划将任务抽象并转化为由许多基本操作所构成的多叉树。接着使用编辑距离计算任务之间的结构相似性,并结合与操作相关的元数据信息计算任务之间的数据相似性,最终定量地计算出任务之间的相似度。在此基础上,第二部分中基于任务的相似性将任务进行聚类,对于每一个类别的任务分别构建参数与执行时间的回归模型。第三部分中,依据得到的最佳回归模型,在有限的参数空间内进行搜索,寻找使得运行时间最少的参数解。基于相似度的任务聚类可以有效地提高优化方法的适用范围,同时加快任务积累的速度,便于更快地进行模型的构建和优化参数的搜寻。通过实验,相似度度量方法成功地定量分析了不同任务之间的相似程度,并通过对比测试与交叉验证构建了最佳的回归模型。最后使用全局优化算法寻找对于某一类任务的最佳参数设定。使用此最佳参数设定进行任务运行的对比实验,最终取得了5%-15%之间的性能提升。
其他文献
中兽医学以其独特的理论体系和丰富多采的病证防治经验及其优势解决了西兽医某些难以解决的问题(如“三致”),因而逐渐引起了世界各国的重视,并被学习借鉴。为了便于国际科
青海省海南州电网调度自动化系统一期工程通过验收1994年4月9日,青海省海南州电网调度自动化系统一期工程,通过了省电力局的验收。电网调度自动化作为一种现代化的工具,在国调、网调、
通过网络将生产线在线水分仪、实验室数采采集系统、取样器与自动标定系统相连,实现在线水分仪参数采集调整,并将标定所用数据在同一平台进行对比,自动标定系统根据比对结果
采用非线性有限元法,分析了全长粘结式锚杆在荷载作用下剪应力的分布规律,同时研究了被加固岩土体的性质对锚固体剪应力分布规律的影响。并将数值模拟的结果与理论计算以及试
文章对贝叶斯网络分类模型进行了形式化的描述,重点介绍了构造贝叶斯网的三种不同的方式,最后总结了贝叶斯网络的优点。
筑牢稳固的心理防线,构建健康的精神空间,就是让每个人内心的堡垒更坚固、更顽强,能够以科学的眼光看待病毒,理性积极地预防病毒。$$近日,为加强疫情防控中公众的心理疏导工作,中央
报纸
进入一个新的纪元,学术研究该走向何处·在人类发展的长河中,又该如何为上一百年的学术研究定位·目前整个学界都弥漫着反思和重评的氛围。而文艺学学科经过近百年的坎坷浮沉
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
从中子学角度对PWR(U)乏燃料中的超铀元素(238Pu,239Pu,241Pu,241Am,243Am,237Np,244Cm)在聚变-裂变混合堆快裂变包层内嬗变的可行性进了研究。利用一维中子输运和燃耗计算程序BIDECAY译不同燃料组分的四个快裂变包层进行分析计算。结果
随着现代化的发展,技术发展的技术正在缓慢变化,与建筑行业相关的技术也在迅速变化。例如,电气设备的现代化开发项目需要阐明初始开发技术的重点,对实际操作中出现的问题进行