论文部分内容阅读
XML的全称是Extensible Markup Language(可扩展标识语言)由于具有简单、可扩展、互操作性强,开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式。鉴于XML在很多领域有广泛的应用前景,许多关于XML的研究都是前沿和热点课题。例如在数据库领域,从某种意义上说XML作为数据库使用可以自然地表示嵌套型数据,比关系型数据库具有更强的表达能力。但是由于XML索引还有很多不完善的地方,直接对XML文档的查询比在关系型数据库上的查询在效率上还差很远。学术界对XML索引技术的研究由来已久,尽管有一定的成果,但是还有很多可以改进的地方.时态XML是为了处理在电子商务、电子政务等领域日益扮演重要角色的时态信息而产生的,是XML技术的一个新兴的研究分支。它相对于时态关系型数据库具有更直观地表达时态信息的数据模型,因此目前时态XML的主要应用是数据存储。对于提高在时态XML文档上的查询效率,传统的XML索引并不是很有效,可以说时态XML还缺乏一些专用的索引技术,在这方面的研究目前还基本上是空白的。本文研究了时态XML的数据模型,以及基于此数据模型创建了索引模型,通过创建索引优化了基于时间的查询。本文首先介绍XML模型和时态XML模型,其次讨论了XML编码方法的研究和应用概况,并分析了当前比较流行的几种编码方法的优缺点。同时在前序编码的基础上提出了预留前序编码的思想。然后将结点表,语义树,语义时间划分表相结合,提出了一种改进的XMI路径索引方法,其中心思想是对路径索引树中的各个节点进行编码,存储在结点表中能够快速判断XML文档树中节点间的祖先/后裔关系和双亲/孩子关系,能有效的支持XPath路径表达式查询和关键字搜索,同时建立语义树,能够快速的构成语义的相对关系,并同语义结点聚合,划分时间段,形成语义时间划分表,快速查找到某时间区间对应的节点集合。同时本文给出了索引的建立算法,以及更新,删除和查询算法。最后我们通过实验证实了创建的索引是可行的和有效的。