倒排索引压缩算法研究

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:casoncai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集的检索通常使用倒排索引模型进行检索,可以在海量的文本数据获取信息。基于数据集构建倒排索引文件通常十分庞大,压缩倒排索引可以减少空间使用,在相同的内存中驻留更多的信息,加快检索的速度。而现有的倒排索引压缩算法在空间利用、解压性能存在局限性,因此,倒排索引的高效压缩与解压成为一个重要的课题。倒排索引的压缩分为单词压缩和倒排链表的压缩,倒排链表的压缩主要将单词在文档中出现的docID、frequency和positions等信息进行压缩,而这些信息的压缩通常为整数压缩。本文提出并实现了RFMEGC压缩算法对倒排索引中docID的压缩和解压。该算法在RFEGC算法的基础上,在实现docID的压缩编码时,减少除法的计算步骤,从而提高压缩编码速度,并降低倒排索引的文件大小。本文提出并且实现了RLERFEGC压缩算法对倒排索引中docID的压缩和解压算法。该算法在RFEGC压缩算法的基础上,将连续的整数1的序列替换为该序列的长度,然后将该长度使用RFEGC压缩算法进行压缩,最后实现docID的压缩,降低docID压缩文件的整体空间。本文提出并实现了DPRFEGC压缩算法对倒排索引中docID的压缩和解压算法。BRFEGC压缩算法将docID序列分为指定长度的整数序列,然后对整数序列使用RFEGC压缩算法进行压缩,使用定长的整数序列进行压缩,对不同的整数序列,倒排索引的压缩效果会明显不同。DPRFEGC压缩算法使用动态规划,计算整数序列的最优分块方案,根据分块方案使用RFEGC压缩算法对整数序列进行压缩。DPRFEGC压缩算法对不同的整数序列使用不同参数,提高数据的访问效率,加快数据解压速度。实验结果表明,RFMEGC压缩算法在倒排索引docID压缩过程中,压缩效果较好;RLERFEGC压缩算法在倒排索引frequency的压缩中,压缩效果较好;DPRFEGC压缩算法比其他的压缩算法解压速度快。
其他文献
油藏特性识别在油藏描述中扮演着重要的角色。传统的油藏描述方法有多种,但大部分都是基于统计学及经验公式;而且参数数量多、维数高,存在很大的随机性和不确定性等。为了克服这
应急资源调度问题是灾害应急管理中的关键问题,主要研究如何让分散的资源尽快到达应急地点。而随着应急资源调度不断在灾害应急、联盟形成、智能计算、智能决策等领域的广泛
近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化的数据。然而
随着信息技术和数据库技术的飞速发展,人们可以非常容易地获取和存储海量数据,然而要从海量数据中提取出有用信息却很困难。数据分类作为一种重要的数据分析技术,可以用于提取描
进入21世纪,计算机技术、通信技术、多媒体技术的发展为企业提供了广阔的发展空间,各个行业的正在大踏步的进入信息化管理、设计、制造及生产的时代。 21世纪的制造业也正面
随着Internet的迅速增长和通信软件的广泛使用,网络蠕虫对计算机系统以及网络的威胁日益增加。传统的基于主机的网络安全防御机制往往采用被动策略,而网络蠕虫是利用系统漏洞
智能规划是人工智能领域中的一个极其活跃的研究方向。本文首先简单介绍了智能规划的研究历史和现状,再用多种分类标准对智能规划系统进行简单分类,然后叙述了规划描述语言的发
目前,国内转杯纺纱机水平落后,尽快自主研发出适合国情的全自动转杯纺纱机成为我国纺织机械设计部门当前的首要课题。本课题就是来源于宏大研究院的一个全自动转杯纺纱机的研
射孔是油气井的主要完井方式之一,在世界石油工业中得到了广泛的应用。不同的射孔参数对井的产能有不同的影响。进行射孔参数优化设计并选择合理的射孔方案,对于提高油田技术经
在互联网高速发展的今天,每个人的生活都在发生巨大的变化,世界正在不断地变“平”。随着电子商务,人工智能,虚拟现实等技术的蓬勃发展,人们只要通过互联网,几乎可以足不出户,坐在计