论文部分内容阅读
随着XML应用的普及,对XML文档查询的要求也就越来越高。如果不对XML文档建立索引结构,那么针对XML数据的任何查询都很可能导致对整个文档树的遍历。随着XML数据集的增大,这种遍历所花费的开销是不可忍受的,XML索引结构的提出正是为了提高查询的效率,在速度与准确性两方面为查询提供更大的灵活性,通过减少访问那些与查询不相关的数据集来实现快速查询。
本文在结合XISS系统和LSDX编码方法的基础上,提出一种新的索引机制——IMDX(IndexingMechanismforDynamicallyUpdatingXMLData,支持动态更新XML数据的索引机制)。该索引机制引入了一种新的编码方法,对XML数据树的每个结点进行唯一编码。通过结点的编码,可以快速地得到任何两个结点间的关系。IMDX在结构上由元素索引,属性索引,名字索引和值索引组成,通过这些索引,我们可以由元素或属性的名字快速地得到同名元素或属性的结点。对于给定的路径表达式语句,采用分解的方法分成足够小的查询单位,再对它们根据结点间的关系进行连接,最后得到查询结果。
本文的创新点主要体现在以下几个方面:提出了一种新的对结点进行编码的方法,有效地解决已有的XISS系统中不完全支持结点更新的问题。并给出了一次遍历就可以建立索引的算法,提高了索引建立的效率。从结点的编码中可以判断出结点路径,从而简化了索引机制,减少了索引文件占用的空间。对传统的路径连接算法进行了改进,解决了路径连接时将无用结点也参与连接的问题,从而提高计算和存储效率。
通过实验,我们把IMDX系统和XISS系统进行了比较,IMDX不仅比XISS系统更好地支持结点的更新,而且索引的建立时间和查询的复杂度都得到很好的改善。