基于Bitmap的倒排索引结构的查询处理研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:mxyyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的高速发展,搜索引擎系统得到了广泛的研究与应用。目前主流的搜索引擎系统均采用倒排索引结构来组织索引,该结构中每一个词项对应一条倒排索引,它将含有该词项的所有网页文档组成一个升序列表(Inverted List)的形式。本文在倒排索引结构的基础上提出一种改进的索引结构——基于Bitmap的倒排索引结构,并设计了对该索引结构的查询处理算法。  本文的主要内容包括:  1.设计了两种基于Bitmap的倒排索引结构,全局Bitmap和局部Bitmap索引结构,其中全局Bitmap的索引结构中将较长的升序列表用一个Bitmap列表代替,而局部Bitmap的索引结构中,升序列表的某一段或某些段被用作Bitmap表示,使得列表中部分是升序列表形式,部分为Bitmap形式。  2.对基于Bitmap的索引结构,提出了相应的查询处理算法。对全局Bitmap索引结构进行处理时,阈值越小,查询中Bitmap列表平均数量越多,查询处理的效率越高。不管是对普通列表求交还是对压缩后的列表进行求交,相比于升序列表的求交,基于Bitmap的索引列表求交的速度会大幅度提升。对全局Bitmap索引结构中Bitmap列表求交过程使用了CPU SIMD进行优化。  3.使用了图形处理器(GPU)来并行处理基于Bitmap的索引结构列表求交,并将若干查询组装为一个批次传输到GPU上处理,从而提高查询处理的吞吐率。由于基于Bitmap的索引结构的列表平均长度较短以及Bitmap列表快速查找特性,使得其查询处理的吞吐率高于升序列表的查询处理吞吐率。同时,对GPU显存空间不足的情况,提出了GPU的缓存策略。对基于Bitmap的索引结构进行查询处理时,需要从CPU传输到GPU的列表数据会相应减少,使得其吞吐率会相应的提升。
其他文献
粗集理论是由Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它
随着计算机技术和消费电子技术的快速发展,嵌入式产业迅速崛起,成为近年来发展最快、最受人们关注的产业,嵌入式系统也得到了越来越广泛的应用,蕴藏着巨大的市场商机。嵌入式系统
XML正迅速取代HTML成为Web上数据表示、集成和交换的标准,与HTML相比,XML简单、自我描述,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来,XML在许多领域
随着我国社会与经济的高速发展,能源消耗和城市机动车数量迅速增加,PM2..5已成为我国城市大气污染的重要污染物之一。以PM2.5污染为典型代表的区域大气复合污染,已成为社会各界
我们生活在一个多姿多彩的世界里,这里有白白的云、淅沥的雨、缤纷的烟火、熊熊的火焰……,而这一切如何在计算机的虚拟世界中来实现呢?不用担心,用粒子系统可以实现它们。而
海洋渔业资源作为可再生的生物资源是海洋资源中十分重要的组成部分,对人类社会的生存发展有着重要意义。我国作为世界第一的渔业大国,连续多年是水产品输出量最大的国家,但是依
工作流模式广泛应用于现代社会的办公、生产和制造等领域,发挥着重要的作用。工作流技术是实现企业业务过程建模、仿真优化分析、过程管理与集成,最终实现业务过程自动化的核
随着我国经济的快速发展,城镇建设和工业生产不断扩大,许多水体遭到工业污水、生活污水的污染,水污染成为我国最严重的环境问题之一。水质监测与评价作为水资源管理和污染控
群组动画是计算机动画领域一个新兴方向,主要研究由大量个体组成的群和组的动画生成。群组动画技术可以用于建筑物疏散口设计,影视特效等诸多领域。特别是在影视特效制作方面
因特网的爆炸式成长和电子商务的出现导致了推荐系统的发展。推荐系统是一种个性化信息过滤技术,它被用来预测某个用户是否喜欢某个项目(预测问题),或被用来确定某个用户最感兴