广播机制解决Shuffle过程数据倾斜的方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:zqzhang_1011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Spark 计算平台中,数据倾斜往往导致某些节点承受更大的网络流量和计算压力,给集群的CPU、内存、磁盘和流量带来了巨大的负担,影响整个集群的计算性能.本文通过对Spark Shuffle 设计和算法实现的研究,深入分析在大规模分布式环境下发生数据倾斜的本质原因.提出了广播机制避免Shuffle 过程数据倾斜的方法,分析了广播变量分发逻辑过程,给出广播变量性能优势分析和该方法的算法实现.通过Broadcast Join 实验验证了该方法在性能上有稳定的提升.
其他文献
信息中心网络是一种全新的网络体系,其通过内容名来进行寻址和路由.然而,目前并没有一种高效而简洁的方案可以实现生产者和消费者之间的移动.本文旨在构建一种基于POF-ICN架
传统的基于区分矩阵的属性约简算法只能处理离散数据,而绝大部分数据既包含离散属性又包含连续属性.针对这一问题,本文使用一种可以对离散数据和连续数据进行统一处理的方法.
铁路集装箱中心站作为内陆腹地运输网络中的重要节点.转运作为主要的站内作业活动,对其开展调度研究,能够有效缩短不同运输方式之间的转运周期,从而保证铁路集装箱多式联运的