论文部分内容阅读
如今XML数据被广泛应用于不同领域,其数据和文档规模不断增大,数目不断增多,导致网络中出现了大量的具有复杂结构的XML数据。如何高效管理和查询结构复杂的XML数据是当前人们面对的一个普遍且关键的课题。在过去的十多年中,众多的研究人员和学者从不同的角度提出了各种查询优化的方法,其中利用编码的索引技术是实现查询优化最常用的重要手段之一。在查询优化设计中,充分考虑编码的索引技术,可以很好的实现对XML数据查询优化的需要。因此,结合编码与索引技术来对XML数据查询优化进行探讨,仍然是一个值得深入研究的课题。论文在二叉树遍历的编码基础上,引二叉树的三叉链表存储结构对XML文档结点进行编码。设计出一种基于二叉树遍历XML文档编码模式。该编码模式利用二叉树的三叉链表结构来存储XML文档树的结点,用自然数作为结点的编码序号。采用该编码模式作为XML文档树结点编码,选取合适关键词作为索引项,利用二叉排序算法为XML文档建立了相关索引模型。论文在传统区间编码基础上,利用倒排表和B+树作为基本的索引组织,设计出一个由DTD结构索引、XML文档索引和内容索引组成的联合结构索引模型。其中DTD索引采用倒排表作为索引基本单位,XML文档索引采用B+树来建立,内容索引则采用倒排表。在处理的查询时,只要通过一个入口即可以找到其它索引项来完成一个综合的多种查询处理要求。理论与实验结果分析表明,论文中基于二叉树遍历的编码模式,具有存储空间小和查询效率高,且支持动态数据更新操作。以此编码建立的索引具有空间开销小、查询响应速度快和查全率高的特点;以区间编码作为文档树结点编码,建立的联合结构索引模型,处理数据查询时具有较高查询效率,能够满足多文档查询的需求并且满足了对XML文档混合型优化查询(文本查询和结构查询)等需求。