基于MapReduce的数据倾斜连接算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:wolaile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态
其他文献
符号约束描述了程序中的变量关系,被广泛运用于模型检测、符号执行等程序的静态分析方法中。将符号约束应用于可编程逻辑控制器(PLC)程序的正确性验证,能够发现程序中的逻辑错
无线传感器网络的广泛应用扩展了人们获取信息的能力,但是其固有的网络特点使得其更容易遭受网络攻击。现有的入侵检测系统通常只针对特定的攻击方式,对其他的攻击则无能为力
在实时软件系统中,软件时间性能的分析与评估技术是一个重要的课题,然而随着CPU的结构越来越复杂,采用传统的模拟底层硬件执行的方法越来越困难。而基于分布函数的最坏执行时
针对当前基于位置服务(LBS)的群组最近邻查询中出现的隐私保护问题,提出了一种新的基于差分隐私保护的LBS群组最近邻查询方法,该方法满足了差分隐私性质并引入了“区域不可区
地震剖面图的绘制是二维地震数据可视化的基础。目前基于通用绘制引擎的地震剖面图绘制是在CPU上实现的,随着地震数据规模越来越大,传统绘制方法的绘制效率已经不能达到交互
目前国内外网页信息隐藏算法大多侧重于研究如何提高隐藏效率和扩充隐藏容量,而忽视了信息隐藏算法的安全性。为此,提出了一种基于不可见字符的主副式网页信息隐藏(PSWIH)算法,
提出了一种基于排列熵和决策级多传感器数据融合的P2P僵尸网络检测算法。首先分别构建流量异常检测传感器和异常原因区分传感器:前者利用排列熵刻画网络流量的复杂度特征(该特
在无线传感器网络中,越靠近Sink的节点由于承担更多子孙节点的数据转发,能量消耗越快,极易形成"能量空洞",大大缩短了网络生命周期。针对能量空洞的问题,提出一种基于长链竞争
电子病历是医学报告在云计算技术迅速发展下的一个重要产物,它的出现方便了医院和患者对病历的管理。然而,患者的相关隐私数据存储在云上,就必然面临着隐私泄露、非法访问等
为了保障特殊格式图像的安全应用,需要针对其特点,深入研究与其格式兼容的图像加密算法。通过集成JPEG压缩标准与自适应加密思想,提出了具有格式兼容特性的JPEG彩色图像自适