基于RDMA技术的Spark系统Shuffle性能优化

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:liu6541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着内存计算的日益兴盛。Spark系统作为基于内存计算的大数据处理系统已经在全世界各种不同的领域得到广泛的应用。相比于Hadoop,Spark在性能上有了很大的提升,特别是在交互式和迭代式计算中。Spark系统沿用了Map-Reduce框架。Shuffle仍然是其中一个重要的阶段,这个阶段日益成为了Spark系统的性能瓶颈。而Shuffle阶段的性能瓶颈主要在于网络传输的速度不够快。RDMA作为近年来兴起的网络通信技术,得到了越来越广泛的应用。他的低延迟、高带宽特性,让人们自然而然地想到用RDMA技术来加速Spark系统的网络传输,从而加速他的Shuffle过程,最后达到提升整个系统性能的目的。本文的工作主要集中在两部分,一部分是设计并实现了一个适合Spark系统特点的底层的RDMA传输引擎。另一个部分工作就是优化Spark Shuffle模块本身的结构,将传输引擎以额外开销最小的方式集成到Spark系统中。在第一部分工作中,我们设计的RDMA传输引擎首次使用无连接的数据报传输方式实现Spark系统的传输模块。以此来避免因为活动连接过多导致RNIC芯片上的缓存Cache Miss率上升,从而影响RDMA的传输性能这一问题。使用数据报方式传输在带来了优势的同时,也引入了新的问题。为了充分利用数据报方式带来的无连接的优势以及解决这种方式带来的问题。本文首先提出了消息分片、乱序并行发送分片及分片重组这一套机制来适应数据报传输方式,并且同时挖掘其中的并行性以便充分利用物理网络的带宽和多处理单元的特性,从而提高整个系统的吞吐率。然后本文设计了一个动态缓冲区池来管理传输过程中用到的缓冲区,并且针对应用可能一次性大量申请缓冲区的特点设计了批量的申请与释放功能来优化缓冲区池的性能。在第二部分工作中,我们对Spark Shuffle模块本身进行了优化,利用Java虚拟机堆外内存的直接映射取代Java虚拟机堆内存到本地内存的拷贝,以达到降低额外开销的目的。最后本文使用了目前流行并且开放的大数据测试用Benchmark——BigDataBench,在实际的装备Infiniband网络的小集群上对优化后的系统进行了测试。测试结果表明,相比优化前使用Socket通信的Spark系统,优化后的系统整体性能提升了16%左右。
其他文献
养老一词起源于原始社会末期,随着中国人口老龄化的加速,养老问题渐渐的成为我们必须重视的一大难题。尤其是我国人口老龄化与工业化、城镇化、现代化并进,与城乡差距、区域
肿瘤细胞表达HLA (human leukocyte antigen) 分子是激发肿瘤抗原特异性CTL (cytotoxic T lymphocytes) 进行肿瘤免疫治疗的关键,其中肿瘤细胞中HLA I类分子表达异常是肿瘤逃
违约责任的归责原则体现了法律的价值判断.由于角度和倾向不同,我国学者对此多有分歧.倘若通过比较、学理、实证三个层面的分析,我国合同法在违约责任的归责原则上,应以严格
目的:检测Survivin、转化生长因子(transforming growth factor alpha, TGF-α)、碱性成纤维细胞生长因子(basic Fibroblast Growth Factor, bFGF)在胃癌(Gastric carcinoma)
<正>2015年是中国印协数字印刷分会成立十周年,这十年,分会所见证的数字印刷行业变革是值得我们记住的。数字化技术在印刷行业内的应用逐步深入又趋于广泛纵观数字印刷技术发
军队射击训练中,传统的人工报靶方式易受场地环境及天气的影响,效率欠佳且存在安全隐患。近年来,研究人员不断从报靶算法和设备上寻求突破,应用电子辅助设备建立自动化射击训练系统,克服传统报靶的缺陷。本文在自动化系统上研究了数字图像处理算法,实现基于图像处理的自动报靶功能。本文的自动报靶系统包括ARM构成的下位机和上位计算机。下位机端通过网络摄像头获取射击训练中胸环靶面图像,一个摄像头对应一个靶道。为充分
本文以增强材料的电催化活性、降低反应过程中的过电位为导向,利用水滑石(LDHs)层板中金属离子组分可调以及原子级分散等优势,以LDHs为前驱体,通过液相还原/氧化的方法得到多
作为信息安全技术的重要组成部分,信息隐藏技术通过隐藏信息存在的形式避免信息被破坏和截获,从而达到保护信息安全的目的。数字图像的普及性及数字图像在存储时的信息冗余性
目的 检测胃癌细胞线粒体呼吸链蛋白——琥珀酸脱氢酶(SDHD)基因的杂合性丢失(loss of heterozygosity,LOH)及细胞色素C(cytochrome C)和缺氧诱导因子-1α(hyooxia induced f
近年来,随着中国经济实力和军事实力的提高,一些国家基于“国强必霸”的西方历史逻辑,担忧强大后的中国将走上对外扩张的道路。但事实上,与西方“二元对立”的思维方式不同,中国讲究求同存异,认为国家实力的增长并不伴随着对周边国家的威胁和侵扰。中西对外战争的不同起因源于不同的历史传统和战略文化,不同的思考起点得出的是截然不同的结论。因此,客观地厘清和研究新中国对外战争的原因、阐述清楚其战略文化,对于增信释疑