【摘 要】
:
随着数据大爆炸时代的到来,大数据业已成为信息领域的一大研究热点。目前已有不少云计算环境下基于MapReduce模型的分布式处理系统可以有效提供高效的大数据查询处理方案(例
论文部分内容阅读
随着数据大爆炸时代的到来,大数据业已成为信息领域的一大研究热点。目前已有不少云计算环境下基于MapReduce模型的分布式处理系统可以有效提供高效的大数据查询处理方案(例如,Hadoop、Hive、Pig等),同时可获得良好的扩展性、容错性和较高的性价比。然而,当前基于MapReduce实现的查询往往使用粗犷的批处理模式,优化方式相对单一,且大多针对单查询进行词法、语法分析,或从操作符顺序的角度设计优化算法,而忽视了查询本身的特性和多查询之间可能存在的数据依赖或复用关系,进而产生大量的冗余计算,影响查询执行效率。此外,现有的查询处理技术大多以减少MapReduce作业数量为优化目标,单纯通过合并MapReduce作业实现查询优化,而往往忽视了MapReduce作业实际的执行代价,从而影响了查询整体性能。基于此,为进一步提升基于MapReduce框架的大数据查询处理性能,本文提出了一种云环境下基于MapReduce的多查询优化框架(Multi-Q),从基于多查询依赖关系的查询结果复用与基于MapReduce执行代价估计的查询结构复用两个方面入手,研究相关机制及算法,以查询结果复用和查询结构复用的混合优化模式,实现上层查询应用向MapReduce作业的高效转换,降低MapReduce作业执行代价,提高整体查询性能。具体地,在查询结果复用部分,首先提出了一种基于聚类的划分算法(CPA)实现对于查询空间的逻辑划分,进而基于查询空间划分结果设计并建立多查询复用关系图(MRDG),用来描述多查询间的依赖关系。最后,提出一种基于多查询复用关系图的多查询处理算法,从而实现多查询结果复用,减少冗余计算。而在查询结构复用部分,首先建立了基于MapReduce的执行代价模型,用于评估MapReduce作业的执行开销,进而根据代价模型,建立了最优查询子结构库,并在此基础上提出了一种基于代价模型的结果复用优化算法,将最优子结构嵌入执行计划,从而实现复杂查询结构复用,优化执行开销。基于以上两种查询复用优化方法,可以从整体上有效提高云计算环境下的查询处理性能。最后,本文设计并开发了基于Hadoop的Multi-Q原型系统,并将其部署在真实云计算环境SEU-Cloud中,通过基准测试集TPC-H生成测试数据,将Multi-Q系统与Hive进行了性能对比。实验结果表明,与原生Hive相比,使用Multi-Q优化系统可以有效提升查询性能,具有明显的性能优势。
其他文献
蓝牙设备由于其生产成本低,用户操作方便,其普及率正在稳步上升。各种笔记本、手机也都配置了蓝牙装置,蓝牙技术正在为越来越多人所熟悉。但是,这种新兴的技术随着普及率的提
编码机会路由(Network Coding Opportunistic Routing, NCOR)结合了机会路由(Opportunistic Routing, OR)和网络编码(Network Coding, NC)的优势,利用多径传输与网络编码技术
随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习
无线局域网WLAN(WirelessLAN)是计算机网络技术与移动通信技术相结合的产物,具有有线网络无法比拟的移动、灵活性,真正实现了人们随时随地自由接入网络的需求。随着无线局域网
近些年来,数据挖掘(Data Mining)技术在医学上已经得到了广泛的应用。本文从手术诊断实际需要出发,研究了决策树挖掘技术在医学诊断中的应用研究问题,并且构建了一个可视化的实
本文在对进化算法的研究基础上,提出了基于遗传编程方法和键合图理论的对非线性系统的辨识方法。本文在简要介绍了进化算法的发展情况后,着重论述了进化算法的一个分枝——遗传编程。本文详细说明了遗传编程的基本算法和操作流程,给出了遗传算子的运行示例。介绍了非线性系统辨识研究目前的发展状况,并结合无线局域网接入点构造问题的例子,对基于遗传编程方法的非线性系统辨识做了理论证明。键合图是一种系统动力学建模方法,本
为解决当前高校资源信息缺乏有效共享、应用缺乏有效集成、用户缺乏统一接口等问题,通过借鉴现有企业资源规划(ERP)和大学资源计划(URP)的一些技术和项目经验,本文提出一种基于
当今社会,市场环境变幻莫测,技术更新突飞猛进,各企业需要不断完善优化自身的业务运营模式以便在竞争激烈的市场环境中赢得主动。“企业流程”成为各企业关注的热点,通过流程再造可以减少企业的成本消耗,树立企业的竞争优势,增强企业的核心竞争力,使企业在激烈的竞争中立于不败之地。工作流仿真技术的应用,有助于各企业改进自身的业务流程,提高企业的工作效率。本文首先对工作流和Petri网的相关理论进行了概述,重点介
无线通信网络和移动设备的出现与普及促进了移动计算的发展。由于移动计算不同于传统的分布式计算环境,有其鲜明的特点:移动性、断接性、弱连接性、资源的局限性、网络通信的多
随着信息技术的飞速发展,基于TCP/IP协议的互联网得到广泛的应用,其影响已经渗透到了我们生活的各个方面。TCP/IP网络体系结构的成功来源于其开放性与简单性,而这种开放性与简单