多核CPU上数据库散列连接算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lrq22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多核CPU硬件体系结构的普及与SMT同步多线程技术的发展和成熟,多核CPU以其强大的并行计算能力越来越成为研究领域中的热点。人们已经开始研究使用多核CPU对多种数据操作进行并行加速,其中在数据库操作中最常用、最耗时的连接操作成为人们研究的重点。在关系型数据库中,连接操作是实现关系型数据库中查询的重要操作之一,它通过对两个关系做笛卡尔积运算实现对这两个关系的信息检索。连接操作是唯一能从不同的关系之间组合出新的关系元组的关系代数操作,同时也是最难找出高效实现方法的操作之一,因为不能预先确定哪些关系之间的连接是需要存在的,而且这还会和网络及分布式系统有关,因为可能不是所有的关系表都是存放在一起的。由此可见,连接操作的代价高低与数据库的性能优劣息息相关。基本的数据库连接操作实现算法主要有:嵌套循环连接,排序合并连接和散列连接等,其中散列连接算法以及优异的性能而被广泛地应用于数据库管理系统。多核并行技术的发展使得这些连接算法的许多变种被提出。它们充分利用多核并行技术和最新的硬件体系结构来获得更好的性能。这些研究表明,硬件体系结构对连接算法的性能有很大的影响。此外,内存访问也是制约连接算法性能的另一个重要影响因素。本文对几种数据库连接操作实现算法进行了系统的研究,重点关注散列连接算法,结合多核CPU硬件结构和内存局部性原理提出了对应的并行连接优化算法,所取得的主要研究成果为:1、针对多核CPU平台提出了一种基于MapReduce模型的并行散列连接算法。通过MapReduce模型实现自动化的线程调度、任务分配管理、负载均衡控制和错误纠正功能,结合利用内存局部性原理提出的任务划分策略,增加了内存的命中率,提高了内存的页面替换效率,从而进一步优化了散列连接操作的性能。2、针对内存延迟、数据偏移和内存压力造成的性能瓶颈问题提出了三种优化策略,实验结果表明,这三种策略取得了预期的效果,较好地解决了存在的问题。实验结果表明本文实现的并行散列连接算法,在多核CPU硬件结构上比传统的连接算法有着大幅的性能提升,同时利用MapReduce模型的特性,结合提出的三个优化策略,跟已有的同类并行散列连接算法相比也有着良好的表现,能够较好地应用于多核CPU硬件结构下的数据库连接操作中。
其他文献
随着企业和政府信息化的开展,工作流技术越来越受到人们的重视,作为过程建模和过程管理的核心技术,它可以与其它系统有效地结合,生成符合企业需求的各种业务管理系统。工作流技术
目前网络带宽日益增大,普通网络报文捕获平台已经成为大规模宽带网络的入侵检测系统,宽带网络防火墙,高性能路由器等工程的瓶颈。对于日益发展的高速网络,分析出普通报文捕获平台
论文在分析了大型旋转类设备状态检测与故障诊断的意义与需求的基础上,介绍了基于实时Linux的诊断软件系统的结构与功能,以此作为硬件平台设计的需求和依据。 依据软件系统
如今,随着网络和通讯技术的不断发展,移动计算、电子商务和信息家电和仪表已经成为最为引人注目的领域。而嵌入式GUI(Graphic User Interface)作为移动计算、电子商务和信息家电
随着科学技术日新月异地发展,现实中的工程优化问题逐渐向复杂化、高难度发展,优化问题的求解方法已经成为一个非常重要的研究课题,而高维、不可微等复杂问题已经无法用传统
近来,随着我国正式加入WTO,如何提高国内企业的竞争力已经成了各方关注的焦点.很多企业都已经认识到,选择信息化是必由之路.然而,我国企业信息化建设的现状却是水平较低、企
随着计算机图形技术的发展,地形的三维表示比平面地图表现出更多的优势。三维地形的表示和生成技术是计算机图形学研究的热点之一,具有浓厚的学术意义,并广泛应用于军事、教
入侵检测是近年来网络安全研究的热点,随着计算机安全问题的日益突出,对入侵检测系统提出了更高的要求,当前IDS的最大问题是不能快速检测出新出现的异常入侵和较高的误报率。
光是一种电磁波,是信息传播的终极载体,通常由电场和磁场两个分量来描述它的性质。然而,从某种意义上来讲,光只有“一只手”,因为当它与传统材料的原子相互作用时,通常只考虑电场的
本论文是结合中国刑警学院校园网项目完成的。随着中国刑警学院校园网中各种应用系统的增加,每个系统有自己的账号管理方案,并且它们互相不信任,给各个系统的整合带来了巨大的负