基于Lemur的XML检索系统的索引改进

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:harryamarly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多的数据开始采用XML进行描述、存储、交换和展现,面向XML文档的信息检索能力变得日益重要。由于XML文档的半结构化特征,对于XML文档的信息检索技术不仅要满足内容需求,还应当能够体现结构信息。  本文首先针对XML信息检索,从索引类型、查询类型、返回结果的类度、检索任务以及检索结果的评价、检索模型等方面较全面地研究了XML检索技术。接着详细的分析了Lemur的索引过程,着重分析了Lemur索引在内存和硬盘上的组织形式和存储方式。并发现了Lemur在建立索引过程中,空间效率低下的问题,通过深入的分析源码,发现了产生问题的原因,并给出了解决方法。然后给Lemur提出了一种新的索引结构,传统的XML检索都是以内容为中心,使用新增的索引可直接从全局的角度判断文档集中是否存在指定的路径,如不存在,还能找出最大的匹配;并且支持各种形式的路径查找,还可利用已有的数据结构,不需要设计专用的存储结构,这样实现起来比较简便,且可以将路径的分数,引入打分机制。  在上述工作的基础上,本文最后对改进后的Lemur索引部分进行了测试和评价,并总结了本论文研究的理论指导意义和实践指导意义。
其他文献
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一门跨
学位
随着Web应用的快速增长,XML数据逐渐成为数据存储的一种新的标准。作为XML的标准查询语言XQuery,其处理技术也得到了国内外研究人员广泛关注,形成了两套相对成熟查询处理方式(基
传统数据库系统的处理对象主要是相对稳定的数据集。而在当今一些新的应用中,数据都以连续的、流的形式出现,而不是有限的存储数据集。这种动态的流数据其应用领域非常多,像股市
应对日益复杂化的公共安全事件,仅仅依靠政府警务力量是不够的,而是需要许多社会组织的参与。这就要求公共安全系统能够按需动态的集成和整合各种社会信息资源,供警务部门决策指
在实际生活中,传统模式识别方法对于大规模数据的分类和函数逼近并不具有理想的性能。数据量和数据的复杂性以及数据样本的不平衡性,导致分类器在学习过程中的存储消耗大、学习
恐怖主义由来已久,近年来恐怖袭击事件时常发生,严重威胁到人类的生命财产安全。“9.11”恐怖事件、巴厘岛爆炸案、云南火车站暴力恐怖事件等都说明了恐怖组织的残忍,对社会造成
Adhoc网络是一种分布式的无线多跳网络。节点依赖彼此间的合作实现信息的交流。尽管针对军事行动、抢险救灾等特殊应用的Adhoc网络可以确保节点间相互合作,但是当节点分别属于
计算机已经进入多核时代,从Intel,AMD,Sparc到PowerPC,CPU的设计者们不再追求单核的高频率而是向多核发展,现在的双核乃至四核CPU已经成为了主流。多核的出现将迫使改变原有的程序
概念格理论作为一种知识表示和数据分析的形式化工具,在理论研究和实际应用中都具有重要的意义,形式概念分析已经在众多的领域获得了成功的应用。但是在基于关系数据库的信息管