面向Flink的多表连接计算性能优化算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:funwoods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式计算引擎Flink已经被广泛应用到大规模数据分析处理领域,多表连接是Flink常见作业之一,因此提升Flink多表连接的性能可以加快数据处理和分析的速度。然而,直接将现有的多表连接优化算法应用到Flink上会带来两个问题:现有算法不能充分发挥Flink基于线程的轻量级计算模型的性能优势;连接算法需要shuffle的数据量过大。提出优化连接并行度的Multi Bushy Tree算法,尽可能提高多表连接计算的并行度;提出优化星型连接的Semi Join算法,可以大大减少需要shuffle的数据量
其他文献
针对现有电动汽车接入充电点位置的隐私保护算法不可抵御背景知识攻击和不可信第三方的隐私攻击问题,提出一种基于本地化差分隐私的电动汽车接入充电点位置隐私保护方法。使用基于距离变换的栅格算法对充电点分布构建维诺图并编号;在客户端对每辆电动汽车所在充电点位置数据进行K-RR随机响应,使结果满足本地化差分隐私,并提供一种在扰动结果上获得电动汽车计数分布无偏估计的方法;通过实验证明该方法在真实数据中与k-匿名