基于统计方法的Hive数据仓库查询优化实现

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:tedloo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.
其他文献
提出了一种基于填充式多孔光纤的宽带太赫兹偏振分离器。结构设计采用折射率反转匹配耦合法,数值模拟采用有限元法,光纤基底选择聚合物材料TOPAS。研究了普通三角晶格多孔光
以杭州西溪湿地公园、西湖西进湿地为例,阐述城市湿地植物景观设计的相关概念,以水生植物、湿生植物为主要景观构成要素,通过不同的植物选择和不同的植物景观构建模式来进行
<正>中学物理公式特别多,不同的公式表达含义不同,即使是同一公式的不同表达形式含义也不同。那么,一个物理公式呈现出来后究竟能否说与分子成正比,与分母成反比呢?这就需要
针对胜利油田孤东采油厂水处理站的含聚污水,采用多种絮凝剂对其进行絮凝对比试验,确定了以聚合硫酸铁(PFS)为絮凝剂,聚合硫酸铝(PAS)作助凝剂的复配体系,对含聚污水进行絮凝
知识分子不仅要掌握知识,而且要具有现实关怀和个体超越精神。以此为标准,中国早期知识分子应该诞生在春秋中后期。中国早期知识分子来源于士和儒,由武士演变而来的文士只是
根据2000年—2006年间全球376家上市商业银行的样本数据,对银行董事会相关的公司治理机制与银行可能发生财务危机的关系进行了研究。结果显示:(1)董事长与CEO两职合一的银行
木材窑干过程中含水率在线检测一直是木材干燥设备控制系统研究的热点之一。介绍了在传统称量法基础上发展而来的在线检测称量法,以及在木材电学特性的理论研究基础上发展起
在越来越强调"以人为本"的今天,企业的激励制度也变得更加人性,企业在倡导一种理性的激励。同时以泰勒为代表的科学管理中的激励制度却饱受批评,其被认为是一种缺乏人文关怀
中国银行是具有悠久历史的国有商业银行,它有着与其他3家国有银行一样的沉疴。在知识经济时代,中国银行应该将培育中国银行企业文化作为建设良好公司治理机制的一项重要内容。中
世界自然遗产以其独特稀有的自然面貌、突出珍贵的学术价值等成为全世界的瑰宝。我国自1985年12月12日成为联合国教科文组织世界遗产委员会成员国以来,自然遗产保护事业发展