SQL查询到MapReduce作业流的翻译优化研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:xiexinhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务、社交网络以及物联网等新一代大规模互联网应用的快速发展,企业需要存储与处理的数据规模已发展到TB级甚至PB级。云计算数据处理系统Hadoop采用了数据并行计算的思想处理大数据,其提供的编程模型MapReduce近年来被广泛用于企业信息处理、科学实验统计、生物计算等领域。使用MapReduce进行复杂数据分析处理时,查询请求都是通过翻译工具翻译成MapReduce作业流进行处理,然而目前通过翻译工具生成的MapReduce作业流存在作业数量过多,作业代码冗长等问题,导致查询执行效率低下,已经不能很好的适应人们的需求。本文针对MapReduce上层的高级查询工具存在的问题,对类SQL查询到MapReduce作业流的翻译优化技术进行了研究。  本文分析了当前MapReduce上层的高级查询工具对查询语句的翻译优化过程,结合Hadoop在扫描数据时采用暴力扫描,并且将计算结果保存到本地磁盘及HDFS的特性,确定了作业之间最基础的输入数据相关性和前驱相关性,根据作业相关性,设计了作业之间的合并规则,解决了作业流优化中如何判断作业是否可以合并以及如何合并的问题,为作业流优化提供支撑。针对作业流包含作业数量过多、无法快速找出最优合并方案的问题,提出了自底向上和自顶向下两种合并策略,实现作业流中作业的快速合并。同时本文分析了MapReduce作业的执行过程,建立了计算作业执行代价的数学模型,解决了预估作业流执行代价的问题。最后将合并策略与代价模型结合,设计了基于代价的相关性敏感的作业合并算法,利用该算法可以在作业合并时,选择执行代价较小的作业流作为最终的合并结果,从而保证类SQL查询被翻译为高效的作业流。  本文设计并开发了SQLMR系统,实现上述功能,并搭建了实验平台,通过基准测试集TPC-H生成测试数据,将SQLMR系统与Hive和YSmart进行了性能对比。实验结果表明,SQLMR与Hive、YSmart相比,翻译得到的作业流可以有效减少磁盘I/O开销、网络传输开销,具有明显性能优势。
其他文献
近几年来,随着互联网的发展,在线社交网络(如Facebook、Twitter等)的成功应用,网络上存在大规模的真实社会数据,催生了社交网络在计算机领域的蓬勃发展。在信息传播研究领域,病毒式
作为移动自组织网络向实用化方向的发展,机会网络可以在缺乏基础设施的环境中,利用“存储-携带-转发”的方式进行消息传输,从而能够在节点间连通性得不到保证的情况下实现端到端
在用计算机数字化现实世界的过程中,相对于以往二维图像,三维数据具有其先天的优势。随着现代三维扫描与建模技术的提高,基于采样点的三维数据模型即点云模型,已经逐渐结合到许多
当前Internet互联网的标准协议是IP的第4版,即IPV4,而IPV4由于地址资源枯竭和路由表爆炸等致命问题,已经面临着更新换代的必要。IP第6版,即IPV6是作为IPV4协议的后继者而由因
XML正逐渐成为Internet上数据表示和数据交换的新标准,网络上存在大量的XML格式的可操作数据和其他商业信息。鉴于这些商业信息的敏感特性,增加了保护XML文档的重要性,迫切需
面对日益激烈的市场竞争和快速多变的市场需求,协同设计(CSCD)作为一种新的产品开发方式,为越来越多企业所采用。在协同设计中,产品数据管理(PDM)是集成和管理所有的应用、信
在军事领域中,诸如雷达、声纳等信号处理系统的性能不断提高,对计算机的处理速度提出了更高的要求。并行处理是提高计算机性能、可用性与可靠性的重要途径。目前,并行硬件技
图像和视频中的文本字符,是图像高层语义内容的一个重要来源,它包含许多非常重要的有用的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像和视频资料的
随着国家医疗保险制度和社会保障制度的改革,以及加入WTO后卫生保险行业的对外开放,我国的医疗行业越来越要求进行信息化管理。在我国,绝大部分医院都已实施HIS,在各分散的医疗单
“软件危机”的出现,对于软件的可靠性和生产效率提出了更高的要求,形式化开发软件是一个很好的解决办法。而形式化开发软件就是要保证能对算法程序进行正确的推导和证明。而循