论文部分内容阅读
随着XML在信息管理、电子商务、个性化出版、移动通信、网络教育、电子文档交换等诸多领域中的广泛的应用,它已经开始成为数据描述和交换的事实上的标准,越来越多的数据开始采用XML进行描述、存储、交换和表示。然而由于XML数据的半结构化特性以及XML数据所特有的路径表达的查询方式不同于现有的关系数据库查询,使得利用关系数据库系统对XML数据的管理功能受到极大限制。现在互联网上已经存在大量以文件形式存放的XML数据,这种方法虽然简单、实用,但是查询能力低,不能满足复杂条件的查询,更谈不上查询优化。因此,如何高效准确地完成对XML数据的查询还存在着许多尚未解决的问题。查询优化是数据库技术中重要的研究问题,是实现高效查询的关键性因素。查询语言首先被转换成为一种内部表达形式(通常是某种代数,如关系代数、XML代数等),根据变换规则得到等价表达式,计算不同形式的表达式的执行代价,然后选择一个代价最小的执行方案,这就是查询处理过程。对查询处理过程的研究是实现查询优化的关键,而查询处理过程中最重要的是逻辑优化阶段。因此,本文针对XML查询处理结构的逻辑优化阶段,研究了这一阶段相应的策略与算法。本文介绍了XML查询的查询处理结构,分析了逻辑优化的常规策略,重点研究了如何针对路径表达式进行优化。路径表达式是XML数据查询语言的核心部分,但是目前针对路径表达式本身进行优化的研究却相对较少。本文通过对相关定理的推理,得出了一种逻辑优化的新策略,即路径缩短优化策略,给出了算法的实现。同时用一般的外延连接算法和这种路径缩短算法进行比较,最后用相应的评测基准测试了该算法。本文研究的重点主要包括以下几个方面:(1)研究了XML的查询处理结构,特别是逻辑优化阶段路径表达式的查询与分解的方法。(2)相关定理的推理和一种新的逻辑优化算法的提出。(3)对评测标准的介绍,并且用这些标准来测试路径缩短算法,最后对测试结果进行了评价。实验的结果表明,路径缩短算法相对外延连接算法不仅提高了XML的查询效率而且具有更好的可扩展性,适用于大规模数据集的连接运算。