分布式数据库中间件中的查询优化

来源 :东华大学 | 被引量 : 6次 | 上传用户:sailer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着数据规模的急剧增长,集中式数据库在存储和计算等方面的局限性日趋显著,数据管理向分布式发展已成为趋势。为了对目前广泛应用的MySQL、PostGreSQL等开源数据库提供分布式支持,Amoeba、Cobar、MyCat等一系列数据库中间件应运而生,这些分布式数据库中间件为用户提供了透明的构建数据库集群的方案,能够平滑的将现有单机集中式数据库和应用迁移到“云”端。然而分布式数据库中间件目前发展尚不够完善,在包含连接、子查询等操作的复杂查询及针对增量数据集的分析查询中,性能较为低下,很大程度上的影响了分布式数据库中间件的推广和应用。针对上述问题,本文进行了如下研究:首先,论文阐述了分布式数据库中间件等相关概念,对分布式数据查询优化的发展历程和国内外关于分布式数据库性能优化研究进行了概述和总结,介绍了数据分片的概念和相关技术。本文从分布式数据库中间件的查询模式出发,分析了分布式数据库中间件查询优化的目标及途径等关键问题。然后,为减少连接、子查询等查询过程中的数据传输量,论文提出一种基于关系的分布式数据分片方法,其主要策略是构建数据集的依赖模型图,然后依据起始表的主键对数据进行分片,其他表参照起始表根据连接键进行相应的数据分片,分片尽可能的保证对于所有查询数据是本地化的。论文也对分片过程中的存储、查询等诸多细节进行了详细探讨,并在开源分布式数据库中间件MyCat上,分别使用TPC-H数据集和SSB数据集对本文提出的方法进行了实验。通过对比和分析,验证了本文的方法能够有效的减少分布式数据库中查询操作的数据传输量,提高系统查询效率。最后,本文基于分布式数据库中间件,提出了一种增量更新数据的查询优化策略来减少单个数据节点的查询执行时间。通过存储历史查询记录和历史结果集,结合数据表的增量更新记录,对同一查询操作仅计算其增量结果集,通过数据节点上的结果合并和分布式数据库中间件中的结果合并生成最终结果。为了减少系统耦合,本文利用本地数据库节点管理查询日志和历史结果,使用分布式数据库中间件控制查询的分解和结果的生成。论文定量分析了该方法的有效性并通过在TPC-H数据集中进行了增量更新的查询操作,验证了本文方法的有效性和分布式数据库中间件查询性能的提升。
其他文献
嵌入式Internet技术的飞速发展和广泛应用以及大量数据的处理需求,给应用于电力控制领域的软件系统带来了新的挑战——数据处理的安全性、可靠性和高效性。本论文对开源嵌入
本文提出并实现一种基于移动设备的用户运动行为的检测算法。在用户随身携带移动设备的情况下,算法可以根据移动设备中的三轴加速度数据,判别出用户的运动状态。算法综合分析
在计算机游戏、数字展示平台、飞行器模拟、虚拟战场、GIS系统、室外场景仿真等研究中,三维虚拟地形的实时及真实感绘制都是其基础内容。由高度场数据构成的地表数据代表了地
云存储提供的动态易扩展的虚拟化资源服务方式为用户存取数据带来了极大便利,但也使得用户数据完整性遭受诸如攻击者主动破环、服务器硬件错误、人为操作失误等因素的威胁,数
虚拟手术系统是一个融合计算机技术、计算机图形学、传感器技术、生物力学、现代医学、图像处理、计算机视觉、机器人学、科学计算可视化等学科的多学科交叉研究领域,其研究
经过多年的信息化建设,学校各部门都根据自身需求建立了信息管理系统。由于在建设初期,缺乏统一的管理和设计,造成应用系统独立建设、缺乏统一的标准,各个部门自成体系的应用
随着网络技术的极大发展,网络管理的复杂性大幅增加。多厂商设备间的标准不一致性,多种接入技术,网络环境和拓扑的多变形,业务的多样化(文本、视频、音频)等,这些都为IT专家
随着铁路运输技术的不断发展,拥有安全、舒适、快捷等优点的高速铁路逐渐受到了旅客们的青睐。然而,高速铁路的快速发展也对民航市场造成了一定的冲击。为了提高人们的出行效
从能量控制来看,ZigBee网络节能机制的提出及相关的性能分析评价,如何降低网络能量消耗,提高能量效率,如何避免因节点能量过度消耗而导致的节点过早死亡、如何延长网络分割时
随着网络技术与压缩技术的发展,人们可以方便快捷地复制和传输各种数字视频。如何对大量的数字视频进行有效的版权保护成为一个迫切需要解决的问题,视频数字水印技术为这一问题