论文部分内容阅读
数据分析和处理是大数据处理中最重要的任务,而等值连接又是数据分析中最常用、代价最高的操作之一。在实际的等值连接操作中,存在一个重要的问题就是数据倾斜:分配到每个任务的数据量不均衡,造成部分任务的完成时间更长,致使连接性能受到严重影响。为解决这个问题,提出一种负载均衡的等值连接算法(VPRP),通过采样估计数据集在连接属性上的数据分布情况,并采用虚拟分区和交叉映射的方法,在倾斜严重的数据周围划分出更多的区间,以增加数据分配的均衡性,同时消减连接噪声对整体性能的消极影响,最后实验验证该算法的有效性。