面向倾斜数据的MapReduce连接算法研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:wang908070
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Google提出的MapReduce编程模型已发展成为最流行的并行计算框架之一。连接运算是数据处理中非常重要的一种操作,然而MapReduce框架不能够很好的支持连接操作,因此MapReduce上连接算法的研究是大数据领域一个重要的内容。但是当前大部分研究内容都是在数据均匀分布的情况下进行连接算法优化,而现实生活中的数据往往是分布不均匀的。MapReduce编程模型在处理倾斜数据时会导致Reduce任务的执行时间差距很大,严重降低了资源利用率。基于以上背景,对于二元等值连接运算,本文提出了基于抽样技术和数据预划分的连接算法,首先在MapReduce中通过蓄水池抽样方法进行并行的快速抽样,然后根据样本空间中数据的分布情况计算连接操作的I/O代价,并根据每个簇的I/O代价进行数据划分,提出簇组合连接算法,核心思想是总是选择代价最大的簇并把它分配给当前任务量最小的Reduce节点;针对严重倾斜的数据,提出簇分割组合连接算法,目的是将非常大的簇均分到所有的Reduce节点处理,获得Reduce任务的负载均衡,提高MapReduce作业的执行效率。对于多元等值连接运算,本文提出值域复制连接算法,通过对连接元组进行复制,实现在单轮的MapReduce作业中完成倾斜数据的连接。实验结果表明,本文提出的算法在处理倾斜数据的连接运算时具有较好的性能。
其他文献
生命周期评价工具在钢铁行业已被广泛用于产品评价、生态标志、工艺改进、生态设计以及新技术评估。生命周期评价在宝钢内部的应用又可分为绿色采购、绿色制造和绿色营销。介
目的分析微创法拔除下颌低位阻生智齿的临床应用效果。方法 240例下颌低位阻生智齿患者,按照数字法分为参照组(应用锤凿劈冠法)和试验组(应用微创拔牙法),各120例。比较两组
急性呼吸窘迫综合征(ARDS)是危重病医学的重要课题,病死率高。虽然近年来对ARDS发病机制的研究不断深入,但治疗措施仍主要局限于呼吸支持。因此,越来越多的研究聚焦于药物治
目的探讨血糖漂移与2型糖尿病视网膜病变(DR)发生的关系。方法对138例2型糖尿病患者根据眼底摄片结果分为无视网膜病变组(NDR)和糖尿病视网膜病变组(DR)。比较两组年龄、糖尿
在同一地区,采用数字表面模型DSM和不同时期DOM两种数据源数据,利用差值检测方法,对城区建筑进行对比检测研究,实验结果表明,基于数字表面模型DSM的差值检测方法在检测城区建
<正>随着信息技术的高速发展,教育信息化水平正成为衡量高校总体发展水平的重要因素,网络技术的应用对高校的教学手段和教育管理体系的促进作用是巨大的。建设高质量的高校电
权力话语理论认为权力与话语密不可分,权力可以通过话语来实现。赛珍珠是长期生活在中国的"外国人",她特别关注女性的生存状况和命运,在《大地》中描绘了旧社会女性的典型形
紫杉醇的全化学合成Scripps研究所的研究人员已经成功地全化学合成了抗癌药紫杉醇,Paclitaxel(BMS的紫杉醇)——二十多年来一个难倒许多科学工作者的、复杂的科学问题。此新方法可能给Paclitaxel的生产提供了一
<正> 神经阻滞是使药物直接作用于神经,阻断神经的传导。此方法不仅用于手术麻醉,而且作为一种手段广泛地应用于疼痛治疗。由于神经阻滞时使用少量的药物直接作用于神经,因而
古今中外的名曲浩如烟海。从本期开始,主要偏重于近现代作曲家的一些乐队作品进行必要的导读,以弥补20世纪乐队作品在教学中的不足。同时,也能够更全面地了解整个乐器家族汇