论文部分内容阅读
分布式计算引擎Flink已经被广泛应用到大规模数据分析处理领域,多表连接是Flink常见作业之一,因此提升Flink多表连接的性能可以加快数据处理和分析的速度。然而,直接将现有的多表连接优化算法应用到Flink上会带来两个问题:现有算法不能充分发挥Flink基于线程的轻量级计算模型的性能优势;连接算法需要shuffle的数据量过大。提出优化连接并行度的Multi Bushy Tree算法,尽可能提高多表连接计算的并行度;提出优化星型连接的Semi Join算法,可以大大减少需要shuffle的数据量