论文部分内容阅读
90年代以来,信息技术进入了一个历史上前所未有的飞速发展时期。INTERNET为用户提供了资源共享和信息交互的方便快捷的手段和平台。目前,大多数WEB上的文档是用HTML格式存放和传送的,但在扩展性、结构化和可验证性等方面的不足限制了HTML的应用能力。于是,可扩展标记语言(XML)应运而生,它是专门为WEB设计的一个简单的SGML的子集,既克服了HTML的不足,又去除了SGML中那些对于当前WEB用户来说不必要的特性。目前,XML已成为万维网数据表示和交换的标准。随着XML文档的大量涌现,针对XML文档的检索查询成为目前研究的热点方向之一。尽管基于HTML关键字的搜索引擎已取得很大的成功,但由于XML与HTML在诸多方面存在差异,若不加修改直接用于XML数据查询,则不能完全发挥XML所带来的好处。特别是在关键字搜索查询时,针对XML数据建立有效的索引机制是实现高效查询的重要手段;此外,由于关键字搜索查询有可能返回大量的查询结果,对关键字查询的结果进行有效的排序,也显得尤为重要。本论文即是针对XML数据索引和查询结果排序这两个与XML关键字查询相关的技术开展研究。针对XML数据索引问题,本文在对现有的XML数据索引技术进行分析的基础上,并通过对XML文档树进行压缩的方式,建立了Ttree变形树索引结构和相应算法。我们详细地讨论了Ttree变形树索引的数据结构及其相关算法,并对现有的XML数据索引和Ttree变形树索引进行了对比实验,通过实验验证了Ttree变形树索引的优越性。针对XML关键字搜索查询结果的排序问题,本文探讨了一种关键字搜索查询结果的排序算法ElemRank,我们也详细地讨论了该算法的每个步骤,并通过实验验证了该算法的有效性。