倒排文件压缩算法

来源 :中国科学院计算技术研究所第六届计算机科学与技术研究生学术讨论会 | 被引量 : 0次 | 上传用户:candycandy726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎一般采用倒排文件作为索引机制,在倒排文件中保存词目对应的文档编号的列表.而如果采用一般的数据类型如长整型来表示文档编号存在如下缺点:存在最大值限制,占用大量磁盘空间等.因此对倒排文件的压缩势在必行,压缩的倒排文件不仅大大降低了存储空间的占用,并通过减少磁盘访问次数来减少检索系统的响应时间,这也是成功的搜索引擎的必备条件.本文对倒排文件的压缩算法进行深入的探讨,给出有效的解决方案.
其他文献
本文分析了广东电网2005 年大面积污闪的特点和原因,分析了绝缘子盐密和灰密数据,从设计、维护等方面分析了存在的问题和不足,指出设计不合理和爬距不足是导致污闪的主要原因,进
本文对于直流大地回路运行方式时地中电流对于交流系统的影响进行了深入细致地分析。简单介绍了现场影响测试的部分结果,就这一课题的研究工作进行了比较完整的总结。得到了深
本文使用商用计算流体力学软件CFX-TASCflow 对一台国产2008t/h 锅炉进行炉内过程的数值模拟,通过分析炉内烟气速度场和温度场分布的特点,得到了产生汽温偏差的原因是四角切圆
科学数据库中存在大量的多媒体数据,为了实现基于元数据的多媒体内容管理,需要进行整体框架设计,这是整个多媒体元数据设计的核心模块.本文首先分析了科学数据库多媒体资源的
图像分割是图像处理中一项很重要的任务,是由图像处理到图像分析的关键步骤.图像编码、图像理解、模式识别都要用图像分割的结果作进一步分析、研究,因此分割的效果对它们的
物体形状的识别是模式识别与计算机视觉领域中的具有挑战性的问题.Hu矩是有力的工具,本文利用主轴方法和改进的胡氏不变矩,提出了一种新的形状的轴对称性识别方法,试验表明,
针对已有的机群文件系统中合作式缓存技术的不足,本文提出了一种新的维护合作式缓存一致性的方法-基于目录的客户使用时启动验证的缓存一致性维护方法,并将其应用在我们设计
鉴于传统C/S模式的VoIP系统存在很大的瓶颈问题,不仅会对通话造成延迟还增加了系统后端通话服务器的费用;如果纯粹采用P2P模式又缺乏可控性,同时也会引入P2P结构本身的一些缺
由于机器翻译的效果目前还难以达到实用化水平,实现人机互动的机器翻译是改进翻译效果的一条现实途径.本文在交互式多策略机器翻译系统[2]基础上,提出了协同翻译机制,并对基
研究应用程序的进程调度相关行为特征对于分析操作系统内部的具体工作机制、查找系统性能瓶颈等具有重要意义,还可以为算法的评估和改进提供重要依据.本文提出了一种新的基于