基于上下文无关文法的倒排索引压缩策略研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:xiaogang7922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速发展,大型搜索引擎面临着越来越严峻的性能挑战。一方面,它们每秒钟都要响应成百上千的查询请求,而这些请求需要从上百亿张网页中检索出与之最相关的网页集合。另一方面,它们必须不断引入信息检索及相关领域最新的科学技术,用以满足日益增长的用户需求,例如用户个性化检索。  为了解决上述问题,前人提出了大量针对搜索引擎架构及策略的优化方法,例如提前停止和结果缓存策略。本文将专注于研究一类重要的搜索引擎性能优化方法——倒排索引压缩。  尽管研究者们提出了大量高度优化的算数编码方法用以减少倒排索引的存储空间及其查询处理时间,但是随着互联网信息和查询负载的不断增长,传统的索引压缩方法仍面临着日益严峻的性能挑战。为此,本文提出了一套全新的基于文法的倒排索引压缩策略,该策略在显著提高索引压缩效果的同时,还能有效提高后续的查询处理性能。  本文方法主要通过识别不同列表内反复出现的重复数据模式(相同文档号子序列),从而将原始倒排索引存储成一个数据组织更为紧凑的上下文无关文法。为了进一步提高压缩效果,本文在生成的文法索引基础上又提出了一系列新的索引存储结构,例如一种四段式结构——通过执行一种基于文法的倒排索引重排策略得到。实验结果显示:与传统索引压缩策略相比,通过采用本文方法,存储完整倒排索引所需的磁盘空间可降低10%~37%。  为了最大限度地提高本文方法的解压性能,文中针对存储结构不同的各式索引分别给出了它们对应的快速解压策略。实验结果显示:相比于传统索引压缩策略,基于文法的倒排索引其解压速度提高了约3.03倍。
其他文献
本世纪初,摩尔定律的失效加速了多核处理器的问世和不断普及,硬件并行化的发展反过来也推动了工业界对软件并发性的研究。软件内存事务是用软件的方法对内存操作进行封装,以
随着Internet的发展,互联网上的数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确地找到自己所需要的知识。信息的爆炸式增长,使人们
计算机网络在各行业中获得广泛应用的时候,网络安全也成为机构和企业越来越关注的问题。虽然防火墙、防病毒系统、IDS、漏洞扫描等安全产品被部署于网络中,但多种安全设备缺
基于人工免疫的入侵检测技术是近年来入侵检测研究领域的热点,它的突出特点是利用生物免疫系统特征、规则与机制实现对入侵行为的检测和反应。入侵检测系统与免疫系统具有本
无线传感器网络是近年来信息技术领域的一个研究热点,它融合了传感器、计算机科学、信号与信息处理、通信等多个领域的技术,集成了信息采集、数据传输、数据处理、数据管理等
体绘制技术是科学计算可视化领域一个重要的研究方向,近年来,由于计算机图形处理器(Graphic Processing Unit,简称GPU)的高速发展,使得基于GPU的实时绘制成了当前计算机图形
学位
随着无线传感器网络研究的不断深入,应用化已经逐渐成为人们关注的焦点。各种在特定应用背景下的研究层出不穷,如环境监测、目标跟踪、安全监控等。如何对这些应用研究成果进
随着科技的进步,科技创新越来越受重视,但目前科技项目评审缺乏科技创新参考指标,因此需要对以往科技项目创新性指标进行分类,提高科技项目评审的质量。采用传统的基于向量空
当下网络基础设施和相关硬件技术的飞速发展,给予了流媒体技术相当的发展空间。然而,由于现行的Internet网络基础带宽仍然无法匹配日益庞大的流媒体用户数和数据大小,传统的C