面向倾斜数据的统计信息扩展和数据库连接算子优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haohaia9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式数据库采用数据分片的方式,将数据分布在不同的服务器或者数据中心上,以获得分布式的存储和查询能力。Shared-Nothing架构是分布式数据库实现一种架构,集群中每个节点都有独立的硬件环境(Hardware Context),用户可以通过简单地增加节点以获得更高的存储容量和吞吐能力。分布式哈希连接(Dist-HJ)是分布式数据库中两表连接操作的一个重要实现,传统的Dist-HJ采用哈希重分布(Hash Redistribution)的方式,其性能对数据倾斜(Data Skew)十分敏感;哈希重分布在倾斜数据下会产生热点节点,其存在限制了集群的吞吐量。因此,亟需对Dist-HJ作出优化,使其对数据倾斜有一定的适应能力。本文的主要研究内容为Shared-Nothing架构下,存在数据倾斜情况下静态数据Dist-HJ的优化算法。静态数据指的是参与Dist-HJ的数据来源为数据库中的表。本文的工作分为两个子问题,一个是面向数据倾斜的统计信息拓展,侧重如何在连接两表中获取倾斜值(Skewed Value)的信息;另一个问题是数据倾斜下的Dist-HJ优化策略,侧重在已知倾斜数据的情况下,如何减轻节点间的负载不均衡现象。本文的工作也从以上两个方面展开。对于第一方面,本文提出了基于DBMS原生表统计信息(Table Statistics)的倾斜值统计方法,倾斜值统计以及频率估计可以嵌入在表统计数据收集过程中。在实验评估中,本文方法在采用人工数据集上能取得接近100%的准确率及60%以上的召回率。对于第二方面,本文首先提出分治-广播(Partition and Replication,Pn R)算法:Pn R基于倾斜值统计信息,根据不同值对应元组的连接选择度(Join Selectivity)来选择不同的重分布方法。Pn R将Selectivity较高的共有倾斜值对应的倾斜元组均分给集群中所有节点,可以避免热点节点的产生。本文的工作在实际的分布式数据库Cockroach DB(CRDB)中对Pn R进行了实现。CRDB的分布式查询处理引擎搭建于其分布式KV存储引擎,呈现出一些与其他Shared-Nothing数据库不同的特点。CRDB中的查询处理的执行计划是动态的,使得某一种单独的优化算法无法在所有的工作负载下取得最好的效果。根据该观察,本文将Dist-HJ抽象为三个基本步骤,并提出了Dist-HJ的代价模型。本文实现了基于代价模型的决策器(Cost-Based Decider,CBD),对给定数据分布以及执行计划下的不同Dist-HJ算法的代价进行估算,并决策出适应于最适应该场景的算法。本文在CRDB中实现并设计实验评估了Pn R和CBD,相对于CRDB中的默认实现,Pn R在人工数据集下能取得最高9×的加速比;CBD能较好地决策出最优算法,相对于CRDB中的默认实现,在人工数据集上,基于CBD的自适应算法能取得2×以上的加速比。
其他文献
随着空间技术的发展,越来越多的航天器涌入太空,空间已经成为各国争夺的宝贵资源。我国的空间站已初具规模,繁重的空间在轨操作任务对空间目标三维重建技术提出了更高的要求。太空特殊的低照度环境为基于图像序列的被动式三维重建技术带来了难题。图像质量以及鲁棒的特征提取与精确匹配是保证后续位姿估计与三维重建质量的重要前提,然而面对暗环境以及复杂光照数据集,目前已有的地面算法仍然存在很多局限性。本文研究空间目标三
学位
随着大数据时代的快速发展,数据的规模、类型、复杂程度高速变化、高速增长使得云计算成为解决数据高效的计算与管理所必不可少的基础性设施。然而,数据在云端进行计算存储在给我们带来巨大便利的同时,也必然会伴随着不可忽视的隐私风险和安全隐患。当企事业单位将其数据外包到公有云上进行存储和计算时,其数据安全可能会受到云服务提供商侧的侵害,比如任何拥有服务器控制权的内部人员,或者在同一云上运行的恶意程序,给用户带
学位
利用遥感卫星影像实现对目标的高精度定位是摄影测量的重要任务。本文针对遥感影像初始RPC参数精度不够、摄影测量定位过程中存在噪声以及遥感测绘领域内当前平差算法求解鲁棒性不高的问题,以经典算法同智能算法有机结合的基本思路,开展了基于神经网络的RPC参数生成方法研究,遥感影像数据的噪声特性描述研究以及基于机器学习的平差算法研究等,提升了光学遥感影像对地定位的精度。论文完成的主要工作和创新点包括:1.本文
学位
深度学习具有卓越的性能,在计算机视觉、自然语言处理、语音识别等领域应用越来越广泛。训练一个高性能的深度学习模型通常需要大量的数据和计算资源,这给模型训练者带来了高昂的成本,因此非法的模型滥用,比如模型盗窃、衍生或再分发等行为严重侵犯了模型所有者的权益,深度学习模型的知识产权必须得到保护。深度神经网络水印技术已经被提出,是目前深度学习领域保护模型知识产权的主要技术。然而,几乎所有已提出的水印方案都只
学位
随着大数据发展的日益迅猛,深度学习作为一种大数据处理手段得以广阔的应用,然而其收集的数据往往涉及用户各方面的隐私、敏感信息。因此,为保护数据隐私、打通数据孤岛,多方参与的深度学习应运而生。在多方深度学习中,用户在本地进行数据处理,完成模型训练,服务器聚合用户上传的模型参数得到全局模型。然而,即使用户上传的模型参数代替了传统的用户数据,模型参数仍然会对用户隐私造成威胁。因此,制定一个既能准确实现全局
学位
随着关系数据库管理系统(Relational Database Management System,RDBMS)在企业和组织的广泛使用,当今市场对具备数据库素养的人才需求日益增长。虽然许多高校已将数据库作为本科计算机专业学位课程,但依然有许多使用RDBMS的在职人员未参加过数据库课程,因此,他们往往需要通过参加在职培训以获取相关数据库知识。对于学习者而言,进修此类课程的一个重要目标是在实践中理解R
学位
随着互联网药品交易B证、C证审批的取消,长期以来的医药电子商务资质门槛被打破,众多医药公司、物流公司以及互联网公司纷纷布局医药电子商务,传统医药流通企业G公司顺应“互联网+”发展和医药行业变革的大背景,建立以B2B模式为主的医药电子商务平台。放开审批、行业竞争变激烈的同时,医药电子商务平台运营管理存在的问题也在G公司B2B平台中频频暴露出,如活跃客户占比持续低迷、物流配送效能低和“线上运营线下交易
学位
随着互联网的迅速发展,越来越多的传统销售行业开始转向互联网营销模式。客户群体也从之前的小范围转向了更大的群体,对于商家来说,面对未知的群体,客户需求难以预测,因此商品销量趋势也变得难以掌控。商品销量预测对于电商企业来说意义重大,精准预测有助于采销人员制定出更加合理的采购方案,从而改善商品销量不稳定导致的供需不均衡问题。因此,商品销量预测在采购方案的制定中显得尤为重要。尽管时间序列预测具有广泛的现实
学位
属性网络是一类特殊的复杂网络,能为数据分析人员提供网络的拓扑结构信息和研究对象的属性信息,以便于挖掘潜藏在网络中的系统底层逻辑。社团结构是属性网络的重要模式,能聚类网络中不同性质的节点,优化网络的资源配置,为发现复杂网络的底层逻辑提供重要察觉。属性网路聚类算法旨在利用网络分析与数学建模的方法,从属性网络中提取社团结构,挖掘复杂系统的潜在特征。针对属性网络聚类算法,本文设计了两种不同的机器学习模型,
学位
随着大数据与云计算技术的快速发展,越来越多企业与个人通过将数据托管给云服务提供商来降低数据计算与管理成本。尽管云计算模式为用户带来众多便利,但这种方式导致了数据所有权与管理权的分离,数据外包存在隐私泄漏风险。为保护云存储数据隐私,用户一般将数据加密后上传,但该方法限制了用户对数据的管理能力,如检索、去重等。因此,如何对密文进行高效查询成为云计算安全领域研究热点之一。对称可搜索加密技术能使用户在密文
学位