论文部分内容阅读
本文的主要研究内容有:对当前已经提出的各种索引技术进行了分析研究,首先给出了一个XML文档树数据模型的形式化定义。讨论了XML编码方法的研究和应用概况,并分析了当前比较流行的几种编码方法和结构连接的优缺点。同时在前缀数字编码的基础上提出了前缀字符编码方法的思想。然后将编码方法、倒排表和路径索引的思想相结合,提出了一种改进的XML路径索引方法,其中心思想是对路径索引树中的各个节点进行编码,能够快速判断XML文档树中节点间的祖先/后裔关系和双亲/孩子关系,有效的支持XPath路径表达式查询和关键字搜索,不需要进行大量的结构连接操作,从而提高XML路径查询的效率,同时给出了两个连接算法。最后对基于序列的XML索引技术进行了分析和研究,指出了由于同名兄弟节点的存在,导致了假警报,出现了查询不等价问题。提出了基于约束序列的XML索引方法,给出了约束的一系列定义和引理通过引入约束匹配,消除了歧义,并能保证结构匹配和子序列匹配的等价性,并证明了定义、引理的正确性,分析了算法的性能。提出了利用模式信息和统计技术来提高约束匹配性能的思想。