分布式数据库的查询优化策略研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:jxwdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了分布式数据库系统的基本概念,如分布式数据库系统的模式结构及体系结构、数据分片的原则及分类、数据分布的策略等;然后简要描述了分布式查询的处理过程和分布式查询的一些优化方法,如基于关系代数等价变换规则的优化算法、基于连接的优化算法、基于半连接的优化算法,接着本文重点研究了分布式查询的常用优化算法,基于查询图的启发式算法和基于查询图划分的启发式算法。分布式数据库系统是与计算机网络相结合的产物,其中一个主要研究问题是在计算机网络上如何进行分布式数据的查询处理。对于分布式查询操作,由于查询涉及的多个关系通常被分片或复制在多个站点中,所以查询时需要对多个站点上的关系进行连接操作,那么在计算查询代价时不仅要考虑CPU和I/O的速度,还要考虑数据在站点间通信时产生的网络传输代价。分布式数据库系统的查询代价的估算方法一般表示为:查询代价=I/O代价+CPU代价+通信代价。在远程通信网或数据传输率较低的系统中,站点间的数据通信往往会比查询执行中的I/O及CPU开销大的多,因而作为首要的优化目标来考虑。论文中的查询算法优化也是针对站点之间的通信代价。 由于分布式查询中站点间的连接操作需要的通信代价较高,所以,为了使分布式数据库能更有效地处理连接,国内外学者一直在进行这方面的研究,形成了各种不同的算法。其中,广泛使用的一种方法就是基于哈希划分的启发式连接优化算法。经过哈希划分后的每一个关系根据哈希函数值被划分为不同的片段,并存储在不同的站点中,这些关系在连接时将保持站点依赖。但是,当多个关系连接时,一般又都存在着重新哈希划分的问题。重新哈希划分将大大地增加站点间连接的通讯代价。虽然前人也提出了一些代价模型和算法,以减少重新哈希划分次数,但这些算法在查询规模变大时得不出满意的优化结果。 本论文首先描述了各种分布式数据库的查询连接算法,然后对启发式连接算法和基于查询图划分的启发式连接算法进行了详细讨论。在分布式查询中,针对基于哈希划分的查询优化问题在理论上都是采用启发式算法来解决的。然而启发式算法仅在查询图是重连通且结点数较小的情况下才能取得较为理想的结果,而对于那些拥有较多结点数或组织结构较复杂的查询图,往往就得不到满意的结果。基于查询图划分的启发式连接算法在查询拥有较多结点数时可以对查询图进行划分,然后对划分后的子查询图并行连接,减少查询的时间,提高查询效率。本文详细研究了这两种算法,并编写程序实现了这两种算法。最后,在这两种算法的基础上进行了改进,改进后的算法在边数为1的查询块较多的条件下能够提高关系连接的并行性,获得较好的优化结果。 改进后算法与原来的基于查询图划分的启发式算法作比较,在基于查询图划分的启发式算法中,只是将查询块边数大于1的查询块并行连接,而改进后的算法将边数为1的查询块也并入并行连接范围,从而使查询时间更小,查询效率更好。 论文最后给出对基于查询图的Kruskal启发式算法、基于查询图划分的启发式连接算法和本文所做的改进算法的主要函数。并对这三种算法进行了实验验证,实验结果表明在某些情况下使用改进算法产生的关系连接序列花费的代价比传统的启发式算法和基于查询图划分的启发式连接算法更小。
其他文献
本文简要阐述了建立地学平台的必要性,介绍了MVC模式和Struts框架的工作原理,然后结合地学数据共享与发布平台设计实现的具体实例,讲述了Struts实现MVC模式的Web应用过程中的关
近几年Internet和Web技术的飞速发展使得网络与人们生活工作的关系越来越密切,如何才能方便、快捷地开发出具有高效性、灵活性和易扩展性的Web应用系统也就越来越成为一个备
本文所提出的思路,在信息系统的设计阶段,就充分考虑数据库的安全问题。把数据库安全体系的建设作为数据库设计过程中考虑的重点问题。从而防止那些因跳过数据库管理系统的外层
本文对基于嵌入式GIS技术的通信线路巡检系统进行了研究与开发。其中包括电子地图显示、操作、属性查询;巡检数据存储的组织形式、存储方式;巡检数据的分析、处理;巡检路线的实
科学计算可视化是当前计算机学科的一个重要研究方向,它的出现有效地解决了目前海量科学数据高效处理和解释这一难题。现代科学提供数据的手段多种多样,且所获得的信息也无法用
本设计把数据可视化技术应用于位场及地质数据的建模领域,针对地球物理、地质、气象以及分子物理领域产生的大量三维数据,在现有三维可视化技术韵基础上进一步研究更加逼真、
本文首先提出了现代意义的办公自动化的概念,阐述了办公自动化的现状和发展趋势以及所涉及的新技术。接着分析不同行业、单位特别是中小型企业的办公自动化系统的差异和存在的
如今的互联网涉及生活工作,给人们方方面面都带来极大的方便。之前,数据信息往往都是孤立,无法进行分享与利用。随着数据价值意识逐渐深入企业,不少企业将过往内部的信息资源进行
随着互联网的蓬勃兴起,企业应用从传统的客户机/服务器模式开始面向互联网,面向分布式应用。作为企业级应用程序解决方案之一,J2EE被认为是当今可用于企业软件开发的最佳平台。
近年米,伴随着Internet技术的飞速发展,传统的HTML数据交换方式己经越米越满足不了日益增长的数据交换的需求。XML作为一种极有前途的互联网上数据交换的新模式,己越来越多的取