云数据库中连接运算的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xuwei1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种不同类型的数据已从过去的GB、TB级,以爆炸性的速度增长到PB量级。并且,在互联网应用、科学计算、商业智能等数据分析任务中,通常都需要对海量数据进行计算、分析与挖掘,以获得有价值的知识和信息。由于数据规模庞大,所以绝大部分计算都需要被分布在成百甚至上千台机器上并行执行。如何在大规模集群上高效地管理、分析海量数据已成为数据管理系统所面临的最严峻的挑战。许多复杂的数据分析任务都涉及复杂的连接条件,或者需要对多个关系表进行连接,因此在云计算平台上实现高效的连接算法具有很高的现实意义。然而,云计算平台的分布性使连接运算代价过高,这是一个迫切需要解决的问题。  本文首先分析了云计算环境中已有的theta连接算法,然后针对其中的问题进行分析,并提出一种基于划分的theta连接算法。该算法利用云计算架构并行计算的优势和特点,通过将连接任务近似平均地划分为多个子连接任务,并分布到各节点上并行计算,从而最大化利用云计算平台的并行计算能力。该算法通过对连接矩阵进行适当划分以尽可能减少各节点发送、接收及输出的元组数,从而最小化theta连接算法代价。随后,本文对云计算环境中已有的多表连接算法进行分析,并提出一种基于过滤器的多表连接算法。该算法同时对多个表进行连接以避免中间结果的产生,并通过提前统计连接属性的取值分布从而减少不必要的元组复制与数据传输。在TPC-H模拟数据上的实验结果表明,本文提出的两个算法具有高效的性能及良好的可扩展性,与云计算环境中多种已有算法相比,显著提高了云计算环境中theta连接以及多表连接运算的效率。
其他文献
随着计算机技术和网络的发展,软件面临着越来越多的安全问题,人们对可信软件的需求也随之变得愈加强烈。可信软件的构建是当前国际上信息安全领域的研究热点。一般来说,软件包括
本文的研究目的在于通过分析大规模搜索日志来理解搜索引擎用户的行为特征。通过设计和建立出具有16个一级分类和90个二级分类的Query分类体系,并在此基础上构建具有8.6万词的
随着计算机技术的发展,软件规模的不断扩大,软件的安全问题正成为业界日益关注的焦点。导致软件安全问题的根本原因是其中存在的脆弱性,而脆弱性的检测作为保障软件安全的有效手
操作系统是最基础的计算机软件之一,其可靠性、安全性、性能等对于整个系统的正常高效运转至关重要。操作系统的架构可以是宏内核的,也可以是微内核的。相比于宏内核操作系统
软件功能在不断增强的同时,软件的庞杂程度也在提高,这样就无可避免的带来软件漏洞。软件漏洞攻击带来的巨大经济损失,迫切需要我们对各种漏洞攻击的方式进行剖析,从而深刻理解攻
多媒体包括文字、图像、图形、音频、视频等多种媒体形式。多媒体处理技术相应的涵盖了以上各种媒体形式及其集合的相关处理技术。本报告主要汇报四个多媒体处理技术,包括两
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估
在计算机网络技术和无线通信技术的大力推动下,互联网正在朝数据通信网络、蜂窝无线网络和广播电视网络三网融合的方向演进,伴随出现了异构网络环境、多模通信终端和多样性的应
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算