论文部分内容阅读
本文论述我国自行研究开发的一个并行数据库系统PBASE/2的核心技术——并行查询处理技术的理论研究和系统实现。 本文共分三个部分。 第一部分是对PBASE/2并行数据库系统的综述。首先提出了一个基于Shared-nothing结构的抽象并行计算模型APCM。然后从整体上描述了PBASE/2系统的体系结构。最后提出了PBASE/2的并行查询执行计划模型,并行查询执行计划模型是并行查询处理的基础和出发点。 并行查询处理由并行查询执行和并行查询优化这两个既独立又相关的部分构成,本文的第二部分介绍PBASE/2的并行查询执行引擎——虚拟数据库机。虚拟数据库机是建立在通用硬件平台上的一个软件抽象层,由虚拟处理机、虚拟数据总线、虚拟主存三部分组成。虚拟处理机管理系统的CPU资源,执行各种数据操作;虚拟数据总线负责操作间数据和消息的传输和控制,构成了整个系统的联系枢纽;虚拟主存提供基于数据存取行为特性的存储和缓冲机制。虚拟数据库机结构简单清晰,具有高伸缩性、高扩展性、高效性等优良特性,为PBASE/2提供了一个优良的并行查询执行引擎。 第三部分介绍并行查询处理的另一个部分——并行查询优化。为了缩减并行查询优化庞大的搜索空间,PBASE/2采用了一种能够适用于Shared-nothing结构的非常独特的两阶段优化策略。PBASE/2将并行查询优化划分为顺序优化和并行化两个阶段。在顺序优化阶段,PBASE/2对并行化后的通信代价进行预先估算,将通信开销加入顺序优化的代价模型,同时对动态规划搜索算法进行了修正和扩展,保证了顺序优化阶段得到的最小代价计划在并行化后代价仍然最小。PBASE/2并行化阶段的优化目标是实现查询工作量在系统内多种资源上的负载平衡,提出了资源负载平衡因子的概念,并且通过启发式规则、基于动态规划并行化算法和任务调度等机制保证了最终得到的并行查询执行计划的优化性。