支持哈希连接的计算与存储分离数据库查询机制的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yezilei311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连接操作是关系数据库中的基本操作之一,是从两个不同关系中检索满足条件的元组。实现连接操作的算法比较多,其中哈希连接在处理连接键上无索引的等值查询时具有明显的优势,能够有效地减少计算次数,在哈希表大小设置合适的情况下能够有效地减少被驱动表的扫描次数。在计算与存储分离架构的数据库中,计算层和存储层之间需要通过网络I/O进行数据的传输,如何使用并行技术将哈希连接下沉到存储层,从而降低二者之间需要传输的数据量,对于提升系统的查询性能具有重要的意义。通过对计算与存储分离数据库的实现原理及其查询引擎工作机制的分析,设计了支持哈希连接的计算与存储分离数据库查询机制的改造优化方案,并在一个自主研发的计算与存储分离数据库原型系统中实现了该方案。在计算层实现了单点哈希连接,适用于传统嵌套循环连接算法的应用场景,通过实现经典的哈希连接算法,给出计算层单点哈希连接的代价估算公式,使优化器在生成执行计划时能够将哈希连接算法纳入候选连接算法集合。在存储层实现了并行哈希连接,针对大数据量的分析型查询,设计了执行计划分片算法,对执行计划进行扫描、切分、重组,生成独立的、可以并行的子执行计划。由消息队列模块、线程池模块、数据处理模块、执行模块配合完成子执行计划在存储节点的并行执行,并给出了相应的代价估算模型。针对改进前后的原型系统进行了性能对比实验,并对实验结果进行了分析。从实验数据来看,对于在线联机事务处理和在线联机分析处理两种类型的工作负载,改进后的原型系统的查询性能均表现出了明显的提升,验证了所提出的哈希连接实现方案的有效性。
其他文献
脑颈动脉解剖关键点定位对于脑部手术计划的决策和脑科手术视觉导航系统的开发具有重要意义。鉴于人工标注成本太高,基于深度学习的解剖关键点自动定位方法应运而生,但目前的方法在准确性、鲁棒性和效率方面仍然存在问题。为了提高医学图像中脑颈动脉解剖关键点定位的精准度、鲁棒性和效率,本课题提出了级联SCN+模型。SCN+模型在空间配置网络SCN(Spatial Configuration Net)的基础上对每一
学位
为了解动物医学专业动物福利与伦理的教育现状,以北京某高校部分动物医学专业本科生为调查对象,开展了对动物福利与伦理认知现状、实践和理论知识获取方式、相关课程开设意向的问卷调查。结果表明,大部分学生认为有必要关注动物福利与伦理,但对相关知识的认识与理解比较欠缺,有待进一步提高。笔者提出,可通过加强动物实验3R(reduction,减少;replacement,替代;refinement,优化)原则的可
期刊
通常在深度学习里,大多数情况会使用某个场景的大量数据来训练模型,然而当场景或者数据集发生改变时,模型就需要重新训练。而元学习的训练过程是以各种学习任务为训练数据,在此基础上训练一个模型,模型就可以拥有在新任务上通过少量样本就可以完成学习的能力。移动终端设备是部署、训练模型不可或缺的重要载体,但由于移动终端设备计算、存储资源的局限性,很难快速、有效的训练模型,使得降低模型运算成本显得尤为重要,该研究
学位
急性脑梗是一种严重的脑血管疾病,具有高致死率和致残率。平扫CT(NonContrast Computer Tomography,NCCT)成像是疑似脑梗患者的首选检查方式,基于NCCT图像分割病灶确定发病位置及范围是辅助医生诊断治疗的重要手段。目前基于深度学习算法对急性脑梗病灶进行自动分割的效果还不够理想,仍需探索更高精度的自动分割方法。针对经典的三维U型网络模型(3D UNet)特征提取能力不足
学位
知识图谱嵌入通过将离散的关联实体和关系以嵌入的形式进行表示,实现了知识图谱中实体语义特征的数值化,方便了知识图谱在下游任务的应用,如知识图谱补全、知识问答、推荐系统等。然而,知识图谱在下游任务的应用效果直接取决于知识图谱嵌入的质量。因此,如何提高知识图谱中实体嵌入的质量,是知识图谱嵌入研究中重点关注的问题之一。目前的实体嵌入研究忽视了知识图谱自身中蕴含的丰富语义信息,如实体类型、本体等。实际上,这
学位
减肥预测可以帮助用户更好的管理自身体重,维持健康状态。过往的减肥预测研究大多集中于分析用户卡路里的平衡状况,以此预测用户的减肥状态。这种方法需要有专业的营养师指导以及用户的高度配合才能得出较好的结果,预测成本太高。减肥社交应用的流行积累了大量数据,如果可以通过这些数据准确预测用户未来的减肥状况,将会大大降低减肥预测的难度。当前基于社交网络的减肥预测模型,成功降低了减肥预测的难度,提高了减肥预测的精
学位
随着大数据时代的到来,大量的感知设备产生了海量的多源异构数据。为了更好地挖掘这些数据,深度计算被广泛运用于图片和视频处理领域。然而在数据带来便利的同时,也伴随着严重的隐私泄露风险。因此结合中心化差分隐私技术和张量深度卷积计算模型,提出了中心化差分隐私张量深度卷积计算模型。但是该模型尚存在一些问题。一是中心化差分隐私张量深度卷积计算模型只能保证输出模型的隐私性,但无法避免数据挖掘者对隐私数据的窥视。
学位
数据倾斜问题导致Spark计算集群中各个计算节点处理的数据量分布不均,甚至可能出现少数几个计算节点要处理绝大部分数据的现象,此问题将严重影响Spark执行作业的效率,进而大幅降低数据处理效率,因此研究Spark计算环境下的数据倾斜优化策略具有重要的理论价值和实践意义。目前存在的数据倾斜优化策略侧重考虑重度键倾斜情况,忽视对值倾斜以及轻度的键倾斜对数据处理效率的影响情况。针对上述问题,分别提出基于两
学位
同态加密已被证明是一种很有潜力的隐私保护工具,开发实用的同态加密方案将进一步促进安全计算的发展。Brakerski-Fan-Vercauteren(BFV)是最为常用的同态加密方案,其支持整数有限域上加密数据的快速计算。然而,BFV方案存在数据庞大和存储开销高昂等性能问题,目前通常采用软硬件加速技术来提高BFV的性能,但主流加速方案主要通过引入数论变换等代数工具来提高计算并行度,缺乏对BFV中基础
学位
通用图挖掘系统是从图数据中发现特定结构模式的重要工具,当前图挖掘系统相关研究的核心目标是保证快速准确得到挖掘结果并减少挖掘过程中的资源消耗。随着图数据规模的急剧增长以及各领域对复杂图结构快速挖掘的需求不断增长,现有的系统已经不能适应大规模、高复杂度的图挖掘任务,其原因主要在于(1)没有对模式图特征进行分析,未能充分利用模式图中包含的约束信息;(2)未能充分考虑到不同挖掘路径和挖掘顺序的选择会对系统
学位