IPC倒排索引压缩编码的优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：xudjqing

【摘要】

：

信息检索系统是互联网中最常见的应用之一，例如Web搜索引擎、在线文献检索系统等等。在这些系统中，倒排索引是最常见也最重要的数据结构。倒排索引文件通常比较大，需要耗费大量

【作者】

：

付玺

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

信息检索倒排索引 IPC编码压缩效率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索系统是互联网中最常见的应用之一，例如Web搜索引擎、在线文献检索系统等等。在这些系统中，倒排索引是最常见也最重要的数据结构。倒排索引文件通常比较大，需要耗费大量存储空间和传输时间，因此往往要对倒排索引文件进行压缩。而倒排索引压缩的效率又会很大程度上影响整个检索系统的效率。为此，相关研究人员提出了多种倒排索引压缩编码。在这些编码中，IPC(Binary Interpolative Coding，也称BIC)编码是一种压缩率突出的树形编码，经常被用于对存储空间要求比较高的场景。但是，IPC编码的解压速度比较慢，这大大限制了IPC编码的进一步应用。因此，本文主要研究IPC编码的优化技术，从压缩率、解压速度与线上查询处理效率等多个方面进行深入的探索，目标是在提高或不降低压缩率的前提下提高IPC编码的解压速度和线上查询处理效率。本文主要有如下三个贡献:　　提出了一种基于部分解压的IPC编码线上处理方法PDIPC。在检索过程中，IPC编码在线上处理的主要时间消耗在解压过程。通过分析IPC编码中元素的顺序，本文发现IPC编码在存储时所有的子树的取值区间都可以根据双亲节点的取值来确定，因此IPC编码在线上处理流程中并不需要解压所有节点，部分子树可以被略过。这种部分解压的策略可以减少解压节点的数目从而提高线上处理速度。实验表明，部分解压可以将布尔AND查询的线上处理速度提高约40％，将排序查询的处理速度提高约10％。　　提出了一种基于最优分块的IPC编码的改进方案OBIPC。本文通过分析IPC编码的结构与各元素的编码长度，发现倒排表中的过长差值是IPC编码压缩率进一步提高的瓶颈。这些超长的差值会影响IPC编码树中多个节点的编码长度，而根据超长差值拆开原列表将显著降低列表整体的编码长度。本文提出了两种拆开列表的方案，并为方案一找到了全局最优解。实验表明，方案一能够在解压速度降低仅仅1％的同时将IPC编码的压缩率提高约13％，方案2则能在提高约4％的压缩率的前提下略微提高解压速度。　　提出了一种基于分步的IPC编码快速解压方法FDIPC。本文通过分析IPC编码的解压流程，发现它速度慢的根本原因在于解压时要为编码树中每个节点计算大量相关信息。分析表明，如果不解压每个节点的值，而只解压差值列表，需要计算的信息的量则会大大降低，而且差值列表可以很快累加为原始列表。基于上述思想，本文提出了两种分步解压的方案，它们都首先解压出差值列表然后累加差值列表。实验表明，方案二能将布尔AND查询、布尔WAND查询及排序查询的线上处理速度提高约14％，方案一则能在不改变编码结构的前提下将上述三类查询的处理速度提高约6％。　　在上述工作的基础上，提出了一种将上述方法进行组合优化的方案。用户可根据问题的具体要求选择优化技术的组合。其中，PDIPC、OBIPC方案2与FDIPC方案1的组合方案在提高了约12％的压缩率的前提下，将布尔AND、布尔WAND与排序查询的查询处理速度分别提高了44％、12％与11％。优化后的IPC编码在WAND查询和排序查询上的解压速度得到显著提升，在布尔AND查询上的处理速度也与其他主流编码相当，与此同时，编码的压缩率得到进一步提升。

其他文献

基于组件的开放式数控系统软件的体系结构研究

本论文讨论的是基于组件技术的开放式数控系统软件的研究。主要工作是基于开放式系统的思想，总结出传统数控的特点，探索基于组件的开放式数控系统软件的结构。开放式控制系

学位

开放式系统数控软件体系结构设计模式组件

公路运输管理系统的设计

本项目针对公路运输管理部门的现有特点，充分了解其工作性质及流程需求，采用微软的.NET设计思想，开发出联网综合作业系统，满足汽车运输管理所需要的各种功能，包括移动通讯、数据交

学位

浏览器/服务器NET架构三层结构组件类库

协同设计中三维信息的发布

随着设计活动日益向国际化方向发展，企业的合作伙伴甚至同一企业的各个部门往往在地域上非常分散，这给设计过程中设计人员间的交流造成了障碍。三维模型是设计人员之间交流的一

学位

协同设计VRMLXML信息集成信息发布

社交网络中信息传播预测研究

近几年，社交网络已成为人们获取消息的重要途径。人们可以在社交网络上发布简短的消息，其粉丝们可以转发或者评论这些消息，促使消息广泛传播。正是因为其快捷性，受到了全世界人们

学位

社交网络信息传播转发预测用户影响力信息流行度

高性能计算中通信和任务调度策略的研究

该文在详细介绍网格概念和网格体系结构的基础上,主要研究内容包括校园网络异构并行计算系统中的集合通信和任务调度策略的设计与实现,同时对网络异构并行计算系统的处理器选

学位

高性能计算网络并行计算网格计算集合通信任务调度算法

基于Linux的嵌入式系统研究与应用

本文主要讨论了基于Linux的嵌入式系统的研究与开发。文章首先对嵌入式系统进行了简单介绍，在详细分析了系统特点的基础上，结合Linux自身的优点，提出了基于Linux的嵌入式操作系

学位

嵌入式系统Linux图形用户界面MiniGUI实时性

数字化医学图象处理与传输技术研究

数字医疗成像设备已经成为现代医疗中不可缺少的诊断器械.如何保证这些数字医疗成像设备所采集的图象可以被有效的管理、保存、使用和清晰的再现,成为现代数字医疗界面临的关

学位

PACSDICOM数字图象处理小波分析Lipschtz指数

面向网络流的APP文件在线识别方法研究

随着移动互联网的发展，越来越多的人使用手机上网。手机APP成为网络服务的主要入口，APP的商业价值得到广告机构的重点关注。对广告主来说，APP下载次数是决定他们最后一次报价的

学位

APP安装包文件识别网络数据流流量统计

中文语音合成系统中文本分析的若干关键技术研究

中文TTS(Text-to-Speech)系统就是把文本文字串或文件通过一定的软硬件转换成连续的语音流输出的系统.文本分析和语音合成是TTS系统两个基本步骤.前者从文本中提取各种韵律控

学位

文语转换特殊符号处理多音字消歧层次化韵律处理模型语音合成自动分词计算语言学

时空数据库若干关键技术研究

作者着重研究了时空数据库的几个关键技术问题.具体研究内容包括:时空数据模型、基于对象行为特征的时空拓扑模型、拓扑规则系统、时空方位处理、空间数据索引和分史存储以及

学位

时空数据库数据模型拓扑关系拓扑规则方位关系通用搜索树分史存储

IPC倒排索引压缩编码的优化技术研究

与本文相关的学术论文