论文部分内容阅读
随着网络技术的发展,XML已经成为因特网上数据表示和数据交换的事实标准。XML是一种半结构化数据,不能直接使用关系数据库管理系统进行处理。基于关系数据库有效地存储和查询XML 数据是近几年来持久研究的热点。从表征XML文档结构的路径概要出发,提出了基于路径分区的XML文档存储方案。在此基础上研究了各种XML 查询的实现,并以达梦关系数据库为平台,实现了DMXML 原型系统。通过从XML文档抽取元素路径生成路径概要,提出了路径分区的编码方案。该方案融合结构映射和模型映射方案,将XML文档映射成关系模式后进行存储;具有编码简洁和路径明晰的特点,能支持成熟的B+树索引,也为更新XML 数据库打下了基础。
根据路径概要信息,提出了把路径查询表达式翻译成SQL 查询的方法。对于属于P{[],/}子类查询模式,将它转化为等价的LCA 关系序列,该序列根据翻译规则生成SQL 查询语句。特别地,每一个简单线性路径查询可被唯一变换为关系数据库中整型主键的范围查询。实验结果显示,路径分区编码方案能加速线性路径查询。为了提高XML 查询效率,提出了基于路径连接图的结构连接算法。应用路径概要,定义树模式的结构约束节点,解析它们的路径来消除后裔边(//)和通配符(*),给出了解析和验证树模式方法,以此形成DM XML 查询模式集。因为该集合中的任意树模式都属于P{[],/}子类,不含后裔边(//)和通配符(*),能明确筛选出参加结构连接的元素。因为解析树模式以线性模式为基本粒度,而不是以模式中的结点为粒度,所以,在简单SQL 查询读取元素之后,匹配DM XML 查询模式的结构连接算法能减少结构判断操作的数目,提高了查询效率。
为了研究含有AND/OR/NOT 判定词的XML 查询,提出了基于Xpattern 模型的模式匹配方法。首先在树模式中增添判定词节点,建立Xpattern 模型及其相应的简化,规范化,初始化操作;然后利用路径概要信息分析Xpattern 树节点的约束关系,形成含判定词的形式化查询语法;最后通过路径连接光标来控制整个匹配过程,以减少不必要的元素扫描和结构连接,也保证了算法的向上兼容性。设计和实现了DMXML 原型系统,主要功能包括语法分析、基表管理和查询执行。DMXML 原型系统建立在DM5.0基础上,接受Xquery 语句,查询结果以XML文档形式输出。Xmark作为测试基准对原型系统的查询处理进行了性能测试,实验结果表明:路径分区编码和小枝查询算法能有效支持Xquery 查询处理,整体性能基本达到了设计要求。