论文部分内容阅读
由于XML(ExtensibleMarkupLanguage)在网络上的广泛应用,它已经成为Internet上新的数据交换标准,同时也为数据库科研工作者带来了新的挑战。随着XML数据规模急剧膨胀,查询处理日趋复杂,单处理机环境由于I/O和主存限制,整体处理能力存在着极限。并行XML数据库系统的出现为大型和超大型XML文档的高效处理提供了有效解决方案。
连接操作是最昂贵且常用的数据库操作。在传统数据库系统中,主要的连接操作是等值连接操作,因此,传统的并行连接算法主要集中于并行等值连接操作。而对XML数据的连接操作不同于传统数据库中的等值连接操作,它是结构连接操作。以前适合等值连接操作的并行连接算法并不能有效解决并行结构连接问题。因为结构连接作为XML查询的重要部分,对查询性能来说起着非常重要的作用,所以在本文中,我们提出了并行结构连接问题,并且通过应用直方图的思想于并行连接,从而提出两种基本的并行XML结构连接算法,等高直方图连接算法和等宽直方图连接算法。实验表明这两种算法具有较好的性能。
而且本文还从划分元素片段的角度去解决结构连接问题,不同于以前被提出的结构连接算法,例如Stack-Tree、XR-tree,这些算法主要集中在节点之间关系的确定上,而本文则是把节点间的关系引申到片段之间的关系,从而得出各片段之间关系的一些属性,再利用片段间的特性来提高结构连接的性能,在这里主要是提高祖先后代关系的查询效率。本文提出了一种基于分片的空间结构连接算法和两种优化方法。通过实验表明这些算法在性能上要优于Stack-Tree算法和XR-tree算法。最后设计了一个简单而又高效的索引结构来存储分片结果,实验结果表明本文提出的索引结构的维护代价要小于XR-tree的维护代价。