论文部分内容阅读
XML正迅速取代HTML成为Web上信息表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于Internet上数据表示和交换。近年来,XML在各种领域得到了广泛的应用,Web上,信息系统以及电子商务中涌现了大量的XML数据。XML逐渐成为信息数据表现和传输的标准。有效地加工、分析,处理和存储XML数据成为目前XML方向研究关注的热点问题,研究者们已经提出了多种XML的查询语言和存储管理技术。而目前,在存储管理XML各种可能的方式中,基于关系的XML数据处理是一种可行而有前景的方式,受到了广泛的关注。但是基于关系存储的XML数据在处理XML复杂路径表达式查询时需要对多个子查询的中间结果作结构连接,这就需要在多个关系表上进行连接计算以实现结构关系的判断。这将导致XML数据查询所需要的I/O时间和计算工作量增加。而前缀编码各段字典有序性,其编码算法比较简单,不但可以很好保存双亲/子女,祖先/后裔结点之间的包含关系,更可以保存XML文档中结点之间位置关系的信息,因而可以成为方便的比较XML文档中任意两结点位置关系的工具。利用前缀编码这些良好的特性,本文提出一个利用前缀编码来支持XML数据查询的新策略。在这个策略中,本文提出一种最长前缀编码匹配的策略。对于基于关系存储的XML数据,在其处理复杂路径查询表达式时,利用最长前缀编码匹配算法,我们可以对XML数据查询中结构连接所得到的中间结果集合进行筛选,通过最长前缀编码匹配策略直接得到XML数据查询所要的最终结果。相对于传统的基于关系存储的XML存储查询策略,在处理复杂XML路径查询时,本文的策略更加高效。为了支持最长前缀编码匹配策略查询XML数据,根据XML路径查询表达式的两阶段查询特点,本文也给出了相应的两种模式级别的XML数据存储策略,并阐述了在这种存储模式下具体的XML数据的查询过程以及和其他模型查询性能分析的对比,并介绍了实验情况和实验结果。为了更好的理解本文,本文还在开始简要的介绍了XML相关的知识和理论,XML查询技术,XML编码方案以及现有的几种典型XML数据库技术。