Web搜索引擎索引压缩与合并技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yjun198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒排索引是Web搜索引擎的核心数据结构,也是目前为止被认为最高效的大规模文本索引方法。随着互联网络的发展,数据规模和用户数量相比早期都有了质的飞跃,这给Web搜索引擎的性能带来了极大的挑战。如何高效地存储和处理倒排索引,对搜索引擎的性能至关重要。  本文的主要研究内容是倒排索引压缩和合并技术。压缩技术能够有效地减小倒排索引体积,提高其存储效率;合并技术则能够加快倒排索引处理速度,提高查询处理效率。本文通过研究倒排索引中的文档序号局部连续性,提出了新的索引压缩和合并算法,并在实际数据集上验证了这些算法的有效性。本文的主要贡献和创新点如下:  1.详细分析了文档局部连续性对倒排索引压缩的影响。倒排索引局部连续性是指在倒排索引中,某一词项在多个连续或者邻近的文档中出现,导致文档序号的分布呈现一定的连续性。本文详细分析了局部连续性能够提高倒排索引压缩率的原因,以及文档序号重排对索引压缩的重要作用。  2.提出一种基于词项的文档序号重排方法。通过文档序号重排,可以在倒排索引中产生较好的局部连续性,进而提高索引压缩率。本文提出了一种新的基于词项的文档序号重排方法,和传统的方法相比,该方法有效地降低了算法的时间复杂度和空间复杂度;此外,该方法可以以词项为基本单位,根据词项的使用情况对倒排索引的局部连续性进行优化。  3.提出一种基于游程编码的倒排索引表示形式:D-RANGE。当倒排索引具有较好的局部连续性时,传统的D-GAP形式已经无法高效地存储倒排索引。本文提出了基于游程编码的D-RANGE形式,该形式不仅提高了倒排索引压缩率,而且减少了存储倒排索引所需要的整数个数,提高了编码、解码效率,加快了查询处理的速度。  4.设计并实现了一种基于D-RANGE形式的倒排索引快速合并算法。目前的索引合并算法都是以D-GAP形式的倒排索引为操作对象,合并的基本单位是单个文档。本文在D-RANGE形式的基础上,提出了一种新的倒排索引快速合并算法,和基于D-GAP形式的合并算法相比,该算法合并的粒度更大,效率也更高。
其他文献
学位
深度学习是机器学习领域中比较新兴的方向,很多研究者相信通过对它的研究,可以达到机器学习的一个本质目的——人工智能。本文主要研究了如何将深度学习应用于行人重现检测技术
高性能计算对科学技术的进步、经济社会的发展起着不可估量的作用,除对性能的追求以外,高能效在高性能计算领域也受到越来越多的重视。面向应用的定制计算是提高计算效能的有效
随着普适计算和物联网的发展,衍生出一类基于位置服务的应用。目前基于位置服务已得到了迅猛的发展,并广泛应用于场馆定位导航、移动互联网应用、资产管理、人员定位、物流管理
我国是一个地质灾害频发的国家,每年地质灾害给国民经济和人们生活带来的创伤是难以计数的。地质灾难不仅给民众的生活安定带来了严重的影响,更严重的牵涉到国家的重大经济决
学位
耦合器是地球系统模式重要组成部分,用于连接各个分量模式。中科院地球系统模式CAS-ESM中使用的CPL耦合器在增加新类型的分量模式、添加耦合物理量、设置耦合频率等环节需要对
现代信息化社会,数据呈现爆炸式增长。这会带来三个方面的严重问题,即存储和管理数据的成本越来越高,数据备份和恢复的时间越来越长,以及数据中心的能耗越来越严重。重复数据删除
体光照技术在可视化和影视特效中有着广泛的应用。不同于一般的体绘制,体光照算法是一种计算体数据全局光照的技术,能够模拟光在体数据中真实散射的情况。通过该技术可以模拟基
物体分割是许多计算机视觉和图像处理问题的重要处理步骤,应用在物体识别、场景理解、图像编辑等相关任务中。因此,物体分割具有重要的研究价值和意义。物体类别的类内多样性,同