Spark计算引擎中Join操作的优化方案与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:dashaomai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark是基于Map/Reduce计算模型进行大规模数据处理的分布式系统,每个任务都会被分为很多Map处理和Reduce处理在各个节点上并行执行。Shuffle操作是用于连接Map处理和Reduce处理的桥梁,会产生大量的网络传输开销和磁盘I/O开销。Spark定义广播阈值参数,对于参与Join的其中一表数据量小于该阈值的场景,使用Broadcast Hash Join算法执行Join操作,避免了两表的Shuffle操作。但是在执行外连接时,Spark未充分利用两表之间有效匹配元组的数据量与广播阈值的关系,导致Broadcast Hash Join的使用受到限制。在对两个大表进行Join操作的过程中,如果两表Join列不完全匹配,Spark中现有的Sort Merge Join算法会对大量数据进行Shuffle操作,严重影响执行效率。针对以上问题,本文基于Semi Join思想,对上述两种算法进行优化,主要工作如下:(1)提升Broadcast Hash Join算法在外连接查询中的适用性。本文提出了一种基于Semi Join的优化算法——Semi Broadcast Hash Join。以左外连接为例,定义左表为基表,右表为外表。如果外表数据量大于广播阈值,但是外表与基表有效匹配元组的数据量小于广播阈值,则基于Semi Join,通过对基表Join列数据所构建的HashMap对外表数据进行过滤,然后对基表和过滤后的外表数据集进行Broadcast Hash Join。在此场景下,可以有效利用Broadcast Hash Join算法的优势,避免Shuffle操作。(2)在Sort Merge Join的基础上,提出了一种基于Semi Join的Join实现算法——Semi Sort Merge Join,同样是通过对左表Join列数据所构建的HashMap对右表数据进行过滤,可以有效减少Shuffle操作过程中所需传输的数据量。同时根据集群配置动态设定Join操作的并行度,即Shuffle的分区数。(3)使用TPC-H数据集对上述两种算法的优化方案进行性能测试。在外表数据量大于广播阈值,但是外表与基表有效匹配元组的数据量小于广播阈值的情况下,Semi Broadcast Hash Join比Sort Merge Join性能优良,实验结果显示优化后性能最高提升约为25%。对于Join列数据不完全匹配的大表间Join操作,Semi Sort Merge Join算法能有效减少Shuffle操作的开销,右表与左表匹配数据量越少,算法优化的效果越明显。实验结果显示优化后性能最大提升约为20%。
其他文献
秸秆快速降解不仅可以解决农业废弃物资源浪费和秸秆焚烧造成的环境污染问题,而且对改善土壤结构、增加肥力具有重要价值,对促进农业生态健康发展意义重大。本文利用重组里氏
进入21世纪,随着计算机技术和科技的进步,计算机仿真逐渐成为工程设计和提高产品性能的手段和方法,在科研和工程领域应用越来越广泛。三维计算机重构技术作为计算机仿真的一
能源与环境的双重压力促使新能源汽车快速发展。轮毂驱动汽车具有力矩输出独立可控、响应速度快、可自由分配等特性,为车辆稳定性控制技术提供非常便利的条件。汽车高速化和
在自然生态系统中,植物介导的植食性昆虫之间存在互利、偏利和竞争等密切种间关系。这样,当一种植食性昆虫的种群数量发生变化势必将影响其它相关昆虫的种群动态。由于转Bt基
经过四十年的改革开放,中国对外开放的制度环境和经济社会基础己经发生了根本性变化,中国经济也正在走向外向型和开放型经济。珠三角经济特区作为中国对外开放的窗口之一,在
伴随着经济全球化的深入和国际贸易的繁荣发展,国家(地区)间经济往来日益频繁,同时由于国际商事仲裁具有保密性强、效率高等独特优势,日益成为众多当事人解决纠纷的首选。然而国际商事仲裁收费较高,造成诸多当事人因为资金严重匮乏无法提起仲裁程序,造成自身的合法权益不能得到及时有效的救济,而第三方资助制度的适用是解决当事人资金严重匮乏的最佳方式。英国、澳大利亚是第三方资助制度起步较早,发展最为成熟的国家,有着
法定代表人是我国的一项具有独特性的重要制度,它脱胎于在我国具有深厚实践基础的厂长负责制,在我国经济体制改革以及现代企业转型的过程中发挥了积极作用。然而,1993年公司法将董事长作为公司的唯一法定代表人,法定代表人的身份开始与董事长的权力相结合,实践对于法定代表人的认识也逐渐开始发生偏差,法定代表人成为了公司领导权的象征、公司意思的最终决定者。但是在责任承担问题上却模糊不清,甚至出现利用公司的有限责
石墨烯的优异性能及极大的比表面积,使其在改性水泥基复合材料研究中得到广泛关注,很多论文报道石墨烯能够有效的提高水泥基复合材料的力学性能和耐久性,然而,石墨烯易团聚、
大气激光通信由于其保密性好、性价比优等特点,成为一种新型宽带接入技术。随着数据传输业务量的急剧增加,人们对大气激光通信系统的容量和传输速率提出了更高的要求;同时,大气湍流的存在会严重影响激光通信系统的有效性和可靠性。光多输入多输出(MIMO)技术可以在不增加频谱资源和发射功率的情况下,成倍提高现有系统的信道容量,但信道间干扰和激光器同步等问题导致其推广应用受到限制。而光空间调制(OSM)技术作为一
本文结合某海底水下炸礁工程实际,研究了海底基槽水下爆破对周围建筑物的振动影响。以动力学有限元理论为基础,应用LS-DYAN动力学分析功能,建立了符合工程实际的有限元模型,对海底基槽水下爆破振动对周围建筑物的影响进行了数值模拟分析。主要的工作内容如下:(1)在查阅大量文献及相关资料基础之上,探讨分析了水下爆破振动效应及爆破振动对建筑物的影响因素和控制标准,为基槽水下爆破对周围建筑物的影响提供了理论支