论文部分内容阅读
随着越来越多的数据开始采用XML进行描述、存储、交换和展现,面向XML文档的信息检索能力变得日益重要。由于XML文档的半结构化特征,对于XML文档的信息检索技术不仅要满足内容需求,还应当能够体现结构信息。 本文首先针对XML信息检索,从索引类型、查询类型、返回结果的类度、检索任务以及检索结果的评价、检索模型等方面较全面地研究了XML检索技术。接着详细的分析了Lemur的索引过程,着重分析了Lemur索引在内存和硬盘上的组织形式和存储方式。并发现了Lemur在建立索引过程中,空间效率低下的问题,通过深入的分析源码,发现了产生问题的原因,并给出了解决方法。然后给Lemur提出了一种新的索引结构,传统的XML检索都是以内容为中心,使用新增的索引可直接从全局的角度判断文档集中是否存在指定的路径,如不存在,还能找出最大的匹配;并且支持各种形式的路径查找,还可利用已有的数据结构,不需要设计专用的存储结构,这样实现起来比较简便,且可以将路径的分数,引入打分机制。 在上述工作的基础上,本文最后对改进后的Lemur索引部分进行了测试和评价,并总结了本论文研究的理论指导意义和实践指导意义。