论文部分内容阅读
随着分布式计算环境的广泛应用,分布式并行数据库系统已成为信息处理中的重要一环,它消除了传统集中式数据库的许多缺点,适合于多种体系结构。分布式并行数据库是逻辑上属于同一个系统的数据集合,但在物理上分布在各个节点上。它具有高可靠性、易于升级、高并发度、高效率、高性价比等优势。 在分布式并行数据库系统中,数据冗余是一种提高查询速度和提高可用性的必要手段,这样在查询和事务处理中,就需考虑数据在物理上的冗余性和分散性。分布式查询需要向用户屏蔽数据冗余分散的底层细节,分布式事务处理要保证全局数据完整,这都是传统集中式数据库不曾面临的问题。 本文首先介绍了分布式数据库的概念性问题;接着讨论了分布式事务涉及的定义及算法;然后描述了DPSQL的原型MySQL的特性、结构和执行机制;继而给出了DPSQL的梗概模型,阐述了实现分布式查询和分布式事务处理的策略及算法;最后分析了进行分布式处理给系统增加的额外开销和客户端的额外响应延迟。 本文重点描述了分布式查询和分布式事务处理的实现机制,分布式查询采用”读一个写全部”的本地优先策略,在读操作频繁的系统中,只要库的分布合理,单机效率极高,几乎无任何附加开销和延迟,而以整个系统的角度看来,吞吐量就更是优于单机系统;分布式事务处理采用两阶段提交协议,通信次数较少并能确实保证副本一致。