大数据并行join算法的实现与评测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:long671
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的流行,越来越多的分布式计算框架(比如Hadoop、Spark等)被应用到实际的大数据应用中。为了解决大数据平台下的数据管理核心问题,将传统数据管理系统中的核心查询操作扩展到大数据平台是非常有必要的。现有Spark内置的查询操作是针对Spark SQL的内置数据类型设计且实现的算法并不全面;另一方面,针对Spark平台面向数据管理核心查询操作的综合评测工作并不多且难以满足特定环境下的评测需求。针对上述问题,本文主要研究并行连接算法在Spark平台上的实现和测评,目标是设计并实现一个Spark平台上适用性更强的连接算法库,并给出针对于所使用实验平台的评测结果。首先,针对数据库中最常见的等值连接展开工作,本文通过将等值连接的几种优化算法:Broadcast Hash Join,Shuffle Hash Join和Sort Merge Join分别进行介绍说明,然后分别使用Spark RDD的方式进行实现,并且通过一系列大小的数据进行实验,通过实验展示出的不同性能指标,进而分别得出这几种优化算法的适用场景。然后,针对大数据常连接出现的数据倾斜问题的常见解决方案进行评测,关注大数据平台上的数据倾斜现象,对于常见的数据倾斜问题的解决方案进行介绍,并且依然使用Spark RDD实现为Spark集群中可执行的算法集。最后还是通过一系列大小的数据进行实验,通过实验展示出的结果,来比较下不同解决方案的效果好坏。最后,对于连接中复杂的多路θ-连接的算法进行研究,通过研究传统和分布式框架上的多路θ-连接算法,改造成Spark集群上的多路θ-连接算法,算法的实现仍然使用Spark RDD。最后也是通过一系列不同大小的数据进行实验,通过实验展示出的结果,分析实验结构后可以发现算法是具有良好效果的从而证明了算法的有效性。
其他文献
代码克隆是具有相似语法或语义的重复代码片段。代码克隆检测在软件维护、代码重构以及漏洞检测等任务中起着重要的作用。为了节约大量的人力、物力,自动检测出代码库中的代码克隆是软件工程领域最重要的问题之一。近年来,利用机器学习技术分析源代码已经引起了人们的广泛关注,不少研究人员采用机器学习技术进行代码克隆检测。较早的研究工作主要使用信息检索方法,这丢失了大量的重要语义信息。最近的研究表明,借助于源代码的中
随着数字经济的发展,数字市场反垄断面临着市场支配地位认定困难、相关市场范围界定困难、数字经营者集中审查困难等问题,作为反垄断的辅助性法律如《电子商务法》《反不正当竞争法》《价格法》等在应对数字反垄断领域也存在法律适用困境。就国外数字反垄断治理的最新进展看,必要设施规则、优势地位滥用规则、跨市场竞争影响滥用规则各有其适用领域及条件,在应对数字市场反垄断治理中也起到一定的作用,但在规制方式上与传统的反
命名实体识别是指从自然语言文本中识别有特定意义的实体,例如人名、地名、组织机构名等。随着互联网的飞速发展,命名实体识别的需求不仅局限于传统的三类实体类型,进一步拓展到了对于各个专业领域命名实体的识别。在大规模数据上,基于深度学习的方法在命名实体识别任务上能够得到较好的效果。但是由于标注资源的限制,在目标领域中常常无法获得大规模的有标注数据,直接应用深度学习的方法无法获得比较好的效果。因此本文研究跨
意图识别任务旨在确定一句话的意图,即通过分类模型将问题分类到事先定义的问答系统中各种可能的意图类别当中,可以被认定为分类任务,是自然语言理解中的关键技术。意图识别任务较早就被提出,但由于缺乏标注数据无法在现实场景中得以应用,尤其是特定领域的意图识别任务当中数据匮乏更为严重。而深度学习在文本分类等多个自然语言处理任务中获得了很好的表现,但是这种方法需要大量的标注数据。本文围绕意图识别的研究现状和当前
学位
在计算机视觉领域,图像分类任务的待分类样本通常来自不同的基础类别(如车、狗、鸟、树等),然而在很多实际应用场景下需要对这些基础类别做进一步分类,这种分类的粒度相较于一般分类任务更为细致,所以称其为细粒度图像分类。因为细粒度图像分类任务区分的是同一基础类别下的子类,子类之间的差异性比与基础类别之间的差异性小很多,且往往体现在细小的局部,这成为细粒度分类任务的难点所在,同时图像噪声、拍摄角度和光照等因
跨语言词嵌入指不同语种的单词对应的表示处于相同的向量空间之中,从而可以方便地度量不同语种的词之间的相似程度,无监督跨语言词表示学习旨在不借助任何的外界跨语言信息来进行跨语言词表示的学习。现有的无监督跨语言词表示学习虽然取得了一定的成果,但仍然存在着不足之处。缺点之一便是自学习步骤中的双语翻译词典获取方法较为简单,不能为后续迭代步骤提供高置信度的双语关联信息,影响了自学习过程的学习效果,并对最终获得
肺癌是最常见的癌症之一,它的发病率和死亡率增长很快。针对不同肺癌亚型,其治疗方案区别很大,如鳞癌以放疗为主;而腺癌则以化疗为主。当前,肺癌分型主要依靠人工诊断,导致效率低,精度差。本文使用病人的CT和PET图像作为数据集,利用深度学习方法训练模型完成对肺癌类型的自动划分。论文中使用Res Net50作为特征提取网络,分别实现只使用CT图像或PET图像以及共同使用CT和PET图像作为输入进行分类,观
在人们对太空领域进行探索与利用的同时,空间技术迎来了长远的发展,出现了新的空间技术需求,例如空间站的维修、卫星回收、释放以及维护等。此外,在经历了近一个世纪频繁的太空活动之后,空间中充斥着很多太空垃圾,它们对未来的航空航天存在很大的威胁。另外,航天器所使用的宇航级CPU工作环境恶劣,面临宇宙辐射以及超过300摄氏度的温差的挑战,故宇航级CPU发展缓慢,现今国内外使用的宇航级CPU计算能力普遍低下,
舆情是社会民意的集中反映。网络舆情来源广泛,传播速度快,且海量多样。为了帮助政府机构、社会媒体能够在海量舆情文本中更有效率的掌握舆情发展动向,需要根据蕴含的信息对舆情文本进行准确的划分。相较于有监督方法,无监督的聚类算法不需要大量标注的数据,能在低人力成本的条件下得到相对理想的性能,是舆情划分的有效方法。近些年,融合表示学习和聚类目标的深度聚类算法得到了广泛关注并取得了出色的性能。现有的深度聚类算