基于模式化编码的倒排索引压缩算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户：zengbiao2010

【摘要】

：

【作者】

：

安兆翔

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

倒排索引索引压缩模式化编码分区优化 Simple Family编码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

倒排索引是信息检索系统的重要组成部分之一,被用于维护数十亿文档并对大量查询操作进行响应。随着当前互联网数据量的不断增加,倒排索引的体积也不断攀升。倒排索引压缩算法可以提高信息检索系统的性能,减少索引的空间占用,加快查询处理速度,因而成为了重要的研究对象。模式化编码相比传统的位编码具有解码速度快,压缩效果好的优点,因而被广泛应用于倒排索引压缩中。本文针对模式化编码中的字节对齐编码算法、固定比特编码算法以及字对齐编码算法进行深入研究,主要工作如下:(1)本文对字节对齐编码和固定比特编码的特点进行剖析,并以此为基础提出了 PVU编码压缩算法。算法以字节对齐编码为基础,引入了固定比特编码中的分区思想,使用“模式区-长度区-编码区”的三层存储结构对字节对齐编码中的二层结构加以改进。算法代替以字节为最小存储单位的单一方式,设计了多种最小存储单位供各分区选取最优的压缩模式,从而提高了全局压缩率。针对PVU编码的分区策略进行研究,将编码分区问题转换为图论中的最短路径问题,设计并实现了动态规划求解编码最优分区的方法,并提出了分区优化的OptPVU编码。(2)分析DocID序列经预处理后的取值分布特征,以字对齐编码Simple Family为基础,融合游程编码加以改进,提出了 Simple21编码压缩算法。算法包含21种编码模式,当序列包含大量连续0值时,Simple21编码相比其它Simple Family编码有效减少了占用空间。Simple21编码还通过将模式标识符和压缩编码分割的方式,增加了编码的最大存储长度,扩大了算法的可用范围。(3)本文提出并实现了 PVU编码、分区优化的OptPVU编码以及Simple21编码三种倒排索引压缩算法,并与Golomb编码、Elias-Delta编码,Variable Byte编码、Stream VByte编码、NewPFD编码和Simple9编码进行了对比实验。实验结果表明,Simple21编码在压缩率和解码速度方面均优于其它压缩算法,是实验中综合效果最优的编码方案。PVU编码、OptPVU编码相比字节对齐编码VByte和Stream VByte,在压缩率上取得了明显的优势。与固定比特编码NewPFD相比,PVU编码与NewPFD编码具有相似的压缩效果,而经分区优化的OptPVU编码则取得了比NewPFD编码更好的压缩率和解码速度。

其他文献

中小企业安全管理现状及对策研究

中小企业在我国的经济发展中有着非常重要的作用,是国民经济的重要组成部分。但是目前,中小企业的安全管理过程中还有着很多问题,经常会出现安全事故,给企业和社会都带来了很

期刊

中小企业安全管理现状

游戏教学法在小学语文教学中的应用

对于学生而言,小学阶段是夯实基础与培养良好的学习习惯的重要时期。而作为小学三大巨头之一的语文,这一时期即是训练学生记忆力与理解能力的黄金时期。身为语文教师,要以引

期刊

小学语文教学游戏教学法教育教学策略

凤凰衣修补鼓膜9例临床观察

期刊

凤凰衣鼓膜修补

公路桥梁限载标准安全性分析

以山东省某预应力混凝土空心板桥为依托,系统验证已有桥梁限载分析模型的工程安全性。首先,根据该桥结构设计资料,按《公路钢筋混凝土及预应力混凝土桥涵设计规范》设计汽车

期刊

预应力空心板桥桥梁限载典型限载车辆极限状态安全性分析

Notch信号通路对成体干细胞分化的影响

干细胞是一类具有多种分化潜能的细胞,在不同的环境条件下,可以分化成需要的其他功能性细胞。干细胞的增殖和分化对人体起着关键作用,无论是正常新陈代谢还是再生医学治疗都

期刊

再生医学Notch造血干细胞间充质干细胞肿瘤干细胞

《诗学》悲剧理论视域下的《原野》

亚里士多德《诗学》中提出的悲剧理论,奠定了西方美学史上悲剧范畴的理论基础。以《诗学》中的悲剧理论为参照,探讨《原野》在创作上的结构安排、情节布局以及隐含在剧作中作

期刊

悲剧《诗学》《原野》复仇正义性

论社会结构、道德实践和道德有效性

伦理学所要研究和解决的重要命题，一个是道德原则问题，在时间跨度和地域广度的涵盖上，确立尽可能广泛适用的伦理学准则标尺；二是道德有效性问题，也就是在前者的基础上讨论道德的实

期刊

社会结构道德规范道德实践道德有效性世俗道德宗教道德

非肉蛋白对重组碎羊肉卷粘合特性的研究

分析了转谷氨酰胺酶在其最佳的作用浓度、反应温度和作用时间条件下,添加几种非肉蛋白对重组碎羊肉卷的粘合性能。将多组非肉蛋白处理组与空白处理组做比较,利用质构分析仪测

期刊

碎羊肉转谷氨酰胺酶非肉蛋白

加强高速铁路调度指挥安全性的思考

随着我国交通运力的不断提升,高铁、动车、直达列车等都得到了广泛的运用,在多种列车共同承担运输工作的同时,高速铁路调度指挥工作也面临着巨大的挑战。在高速铁路的日常调

期刊

高速铁路调度指挥安全性

星云大师与南亭长老

星云大师与南亭长老的交往非常多。从南亭长老的自传来看,南亭长老对星云大师是非常欣赏的。对于南亭长老的欣赏,星云大师不仅有强烈的感受,而且还给予了回报。在南亭长老圆

期刊

星云大师南亭长老华严思想

基于模式化编码的倒排索引压缩算法研究

与本文相关的学术论文