论文部分内容阅读
随着Internet和WWW的迅速发展,Internet上的资源日趋丰富,为了帮助人们在浩如烟海的互联网中得到有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速发展。但是,仅仅检索出文档和网页已经不能满足现在用户的需求,人们希望能够获得最精准的信息,这种信息应该具有一个合适的粒度,在这个粒度上检索结果包含最少的无用信息。而XML作为一种用户自定义的标记语言,可以很好的解决这个问题。目前,XML已成为万维网数据表示和交换的标准,随着XML文档的大量涌现,XML检索成为目前研究的热点方向之一。XML作为一种半结构化数据,既不同于数据库记录中的结构化数据,也不同于文本文档(如HTML)的非结构化数据。尽管基于HTML关键字的搜索引擎已取得很大的成功,但由于XML与HTML在诸多方面存在差异,若不加修改直接用于XML数据查询,则不能完全发挥XML所带来的好处。HTML是一种表示性的语言,包含的语义很少,XML允许扩展元素标记,在这些扩展标记中,包含了更多的语义信息。通过对XML检索的研究,我们可以合理充分的利用XML中的语义信息,从而为用户返回更为精确的查询结果。在XML检索中,有效的XML索引可以加快检索速度,减少用户等待时间,因此,针对XML数据建立有效的索引机制是实现高效查询的重要手段,是左右XML数据处理性能的重要因素,这也成为Web信息检索的一个重要研究点。针对XML数据索引问题,本文通过对现有的XML索引技术进行分析,建立了基于Dewey编码的新型索引PCiD(Path & Content Index)及其查询处理方法。该索引不同于其他索引的一点,在于使用了结构/内容分而治之的思想,即为路径信息和值信息分别建立索引。该索引使用路径索引保存路径信息,这样任何一个结构化查询中的路径信息,可以在路径索引中轻松的找出与之相匹配的元素;另一方面,使用内容索引存放XML文档中的值信息,对于结构化查询中的值限制,我们可以在内容索引中找出与之对应的索引项,并进行处理。最后通过合并两个索引得到结果,找到用户所查询的元素,并将其返回。该索引的优势在于,一方面它能够解决路径索引在处理分支查询时需要拆分成单路径查询的问题。一方面,通过采用Dewey编码,解决了结点索引中不能快速判断XML文档树结点之间关系的问题。最后,本文通过实验证明了该索引的有效性。