基于模式化编码的倒排索引压缩算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zengbiao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒排索引是信息检索系统的重要组成部分之一,被用于维护数十亿文档并对大量查询操作进行响应。随着当前互联网数据量的不断增加,倒排索引的体积也不断攀升。倒排索引压缩算法可以提高信息检索系统的性能,减少索引的空间占用,加快查询处理速度,因而成为了重要的研究对象。模式化编码相比传统的位编码具有解码速度快,压缩效果好的优点,因而被广泛应用于倒排索引压缩中。本文针对模式化编码中的字节对齐编码算法、固定比特编码算法以及字对齐编码算法进行深入研究,主要工作如下:(1)本文对字节对齐编码和固定比特编码的特点进行剖析,并以此为基础提出了 PVU编码压缩算法。算法以字节对齐编码为基础,引入了固定比特编码中的分区思想,使用“模式区-长度区-编码区”的三层存储结构对字节对齐编码中的二层结构加以改进。算法代替以字节为最小存储单位的单一方式,设计了多种最小存储单位供各分区选取最优的压缩模式,从而提高了全局压缩率。针对PVU编码的分区策略进行研究,将编码分区问题转换为图论中的最短路径问题,设计并实现了动态规划求解编码最优分区的方法,并提出了分区优化的OptPVU编码。(2)分析DocID序列经预处理后的取值分布特征,以字对齐编码Simple Family为基础,融合游程编码加以改进,提出了 Simple21编码压缩算法。算法包含21种编码模式,当序列包含大量连续0值时,Simple21编码相比其它Simple Family编码有效减少了占用空间。Simple21编码还通过将模式标识符和压缩编码分割的方式,增加了编码的最大存储长度,扩大了算法的可用范围。(3)本文提出并实现了 PVU编码、分区优化的OptPVU编码以及Simple21编码三种倒排索引压缩算法,并与Golomb编码、Elias-Delta编码,Variable Byte编码、Stream VByte编码、NewPFD编码和Simple9编码进行了对比实验。实验结果表明,Simple21编码在压缩率和解码速度方面均优于其它压缩算法,是实验中综合效果最优的编码方案。PVU编码、OptPVU编码相比字节对齐编码VByte和Stream VByte,在压缩率上取得了明显的优势。与固定比特编码NewPFD相比,PVU编码与NewPFD编码具有相似的压缩效果,而经分区优化的OptPVU编码则取得了比NewPFD编码更好的压缩率和解码速度。
其他文献
中小企业在我国的经济发展中有着非常重要的作用,是国民经济的重要组成部分。但是目前,中小企业的安全管理过程中还有着很多问题,经常会出现安全事故,给企业和社会都带来了很
对于学生而言,小学阶段是夯实基础与培养良好的学习习惯的重要时期。而作为小学三大巨头之一的语文,这一时期即是训练学生记忆力与理解能力的黄金时期。身为语文教师,要以引
以山东省某预应力混凝土空心板桥为依托,系统验证已有桥梁限载分析模型的工程安全性。首先,根据该桥结构设计资料,按《公路钢筋混凝土及预应力混凝土桥涵设计规范》设计汽车
干细胞是一类具有多种分化潜能的细胞,在不同的环境条件下,可以分化成需要的其他功能性细胞。干细胞的增殖和分化对人体起着关键作用,无论是正常新陈代谢还是再生医学治疗都
亚里士多德《诗学》中提出的悲剧理论,奠定了西方美学史上悲剧范畴的理论基础。以《诗学》中的悲剧理论为参照,探讨《原野》在创作上的结构安排、情节布局以及隐含在剧作中作
伦理学所要研究和解决的重要命题,一个是道德原则问题,在时间跨度和地域广度的涵盖上,确立尽可能广泛适用的伦理学准则标尺;二是道德有效性问题,也就是在前者的基础上讨论道德的实
分析了转谷氨酰胺酶在其最佳的作用浓度、反应温度和作用时间条件下,添加几种非肉蛋白对重组碎羊肉卷的粘合性能。将多组非肉蛋白处理组与空白处理组做比较,利用质构分析仪测
随着我国交通运力的不断提升,高铁、动车、直达列车等都得到了广泛的运用,在多种列车共同承担运输工作的同时,高速铁路调度指挥工作也面临着巨大的挑战。在高速铁路的日常调
星云大师与南亭长老的交往非常多。从南亭长老的自传来看,南亭长老对星云大师是非常欣赏的。对于南亭长老的欣赏,星云大师不仅有强烈的感受,而且还给予了回报。在南亭长老圆