论文部分内容阅读
Internet发展到至今已经完全渗入到人们生活工作的各个方面。作为半结构化语言XML已经成为一种最重要的数据载体,在Web服务、电子商务、数字图书馆等诸多网络等领域的数据描述标准。研究表明,当今国内外研究的重点集中在以下两点:如何有效查询和管理XM数据与如何方便用户从海量的XML数据中提取他们所需要的信息。因此,许多对XML数据查询的研究就由此出现了,从而使得XML数据查询成为XML数据管理领域的一个热点。本文从XML数据库系统角度出发,透彻分析了目前存在的XML文档树的小枝查询技术与面临的不足。通过研究与改进编码方案来快速的组织XML文档,并且根据XML查询的特性,本文提出了一种新的索引REI,这是一种有着简单的数据结构和严谨的逻辑结构的索引技术。同时,为了进一步提高查询的效率,本文的索引还利用了改进的区间编码方案来组织和引用XML数据。基于以上的研究,本文还对XML文档的查询做了细致研究。XML查询中的路径表达式可以表示为树状查询独立地描述查询要求。XML数据查询主要分为单路径和多分支路径查询。在这两种路径查询方面,XML查询都可表示成小枝模式查询,在XML数据库中找到所有出现的小枝模式是当前XML查询处理的核心操作。基于这个思想,本文提出了一种新的基于索引的查询模型。在借鉴已有相关算法的优点,摒弃其中诸多缺点的基础上,采用改进的区间编码快速判断结点之间的祖先-后裔或父-子关系,并利用索引REI,进一步设计了一种新的高效的算法RE-TWIG,该算法可以有效的减小查询中的复杂度和冗余,快速的得到目标结点。本文的主要工作和创新点有以下几个方面:1、研究了主流XML文档的结点编码方案,研究了小枝路径索引的分解方法与查询方式。根据本文查询算法的特点,采用改进的区间编码方式,以此快速的判断结点直接的逻辑关系。2、本文提出了一种索引REI来存储XML文档。对于任何XML索引,在设计与实现的过程中都要考虑到XML查询的基本特征,其中包括逻辑结构的保存以及基于结构信息快速判断结点间的关系,除了以上两点还必须做到一条:满足高效处理XML查询的请求。通过其与将经典索引进行的数据集对比实验的结果来看,对本文提出的索引完全符合这一要求。3、在前两点研究的基础上,提出、设计并实现了一种基于改进区间编码和REI索引的小枝模式查询算法。该算法包括目标结点筛选和小枝查询模式匹配两部分。并通过实验给予了性能验证。为了便于对以上研究点的理解,论文以一个XML文档树的例子为依据,举了一个通用查询实例,详细展示了算法运行的全部过程。本文对如何有效的建立XML数据库索引以及查询技术方面进行了深入的探索,为更好的解决此问题提供一种行之有效的思路和方法。本文的课题基础也是目前XML查询领域中应用比较广泛的技术,不但为如何更好的进行XML文档树编码和索引的设计提供了思路和方法,同时也为基于索引的小枝查询的研究提供了一定的帮助,这使本文课题研究既具有探索性的理论研究价值,也具有一定的应用价值和现实意义。