面向大规模索引集的CPU-GPU协同查询处理框架设计与优化

来源 :南开大学 | 被引量 : 0次 | 上传用户:zzzj1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的蓬勃发展,搜索引擎面对的数据规模和用户查询量都有了极大的增长,这对搜索引擎的性能构成了巨大的挑战。目前,商业引擎普遍采用分布式的架构,由索引服务器集群负责处理用户的查询请求。索引服务器召回文档的速度对于系统整体性能至关重要。图形处理单元(GPU)凭借其出色的并行计算能力,可被用来对索引服务器中的倒排链表求交算法进行并行加速。然而,在大规模索引数据的环境下,GPU有限的显存空间成为了并行加速的主要障碍,这正是本文想要解决的主要问题。  首先,本文在基于GPU的并行求交算法的基础上,设计了由GS Method改进的并行化版本的提前停止算法。然后,一方面根据查询数据集对于索引信息的访问频次,设计了基于词项的索引划分方式;另一方面根据提前停止算法对于倒排链表中文档的访问分布,设计了基于文档的索引划分方式。与此同时,基于这两种索引划分方式,本文为在无GPU缓冲区和有GPU缓冲区的情况下,分别设计了查询的分配策略和执行流程,并实现了相应的CPU-GPU协同处理框架来处理查询。最后,本文综合了这两种划分方式的特点与优势,以查询集对于倒排记录块的访问频次为根据,提出了混合式的索引划分方式。在此基础上,设计了相应的查询分配策略和执行流程,完善了CPU-GPU协同查询处理架构的优化工作。  通过在GOV2索引集和Terabyte2006实验验证,本文所提出的三种索引划分方式,在不同的策略和架构下与基准相比均有一定的性能提升。而基于混合式索引划分的CPU-GPU协同处理架构表现更优,在GPU显存不足的情况下,能够保证查询处理系统有较好的性能。
其他文献
短短几年间,包括微博在内的社会化媒体得到了长足的发展,所拥有的用户数量和参与率不断刷新记录,在社会生活中的地位和作用也越来越重要。其不但创造了一种新的沟通形式,更逐渐打
电力系统是一种典型的信息物理系统,其动力学具有混成性、非线性、高维度、包含控制变量等特点。安全性是电力系统运行中的一项重要指标。为了保证电力系统安全稳定运行,动态安
互联网应用的内容存取模式已从单数据中心的分布式存储形式向跨数据中心的全局、大规模海量的分布式存取形式发展。传统的分布式存储文件和数据库系统的学术思想和设计原理在
深度包检测技术在网络安全应用中发挥着重要作用。随着入侵特征的不断复杂化,正则表达式由于其强大的表达能力逐渐成为深度包检测系统描述入侵特征的主要语言,正则表达式匹配也
随着多媒体技术和网络技术的迅速发展,各种视频数据信息大量产生。如何有效地利用这些视频资源是一个亟待解决的问题。针对这个问题,视频标注工作通过赋予视频镜头或片段相关语
物联网技术的发展使得互联网时代的“人与人”之间的网络逐渐演变成“物与物”之间的网络,新的变化不仅表现在网络规模的扩大,更表现在上层业务模式的创新上。物联网时代大量
基于全球卫星导航系统(GNSS)的科学问题及新应用拓展研究一直是导航界关注和研究的问题。基于载波相位的姿态测量是GNSS应用的一个重要方向,而单独利用GNSS进行姿态测量输出频
学位
该文以湖北省GSM网为例,运用计算机网络管理原理来分析操作维护中心的结构、功 能及其实现方法.在阐明网络管理的重要概念(管理模型、OSI管理信息库、网络管理协议、、网络管
IEEE802.15.4专门用于支持设备在低功耗无线个人局域网(LoWPAN)中的通信。在设计之初,IEEE802.15.4标准只包括物理层和媒体接入控制层,并不支持和IP网络进行互联,然而LoWPAN