Spark内存管理与缓存策略研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:stevewen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的发展和时代的进步把我们带入了大数据时代。大数据时代下,如何把海量的数据转化为巨大的价值是大数据处理需要解决的问题。然而,传统的单机环境难以存储和处理海量的数据,出现了很多分布式存储和计算系统。分布式系统能够管理和协调大量普通机器,对外表现为一台机器。在分布式系统内一台机器上存储和处理一部分数据,所有的机器协调统一,从而完成整个存储和计算的任务。由于内存访问速度是纳秒级而磁盘的访问速度是微秒级,所以使用内存加速分布式存储和计算是当前大数据存储和处理的研究热点。Spark就是一种基于Map-Reduce编程模型的Spark分布式内存计算系统。Spark提出一种新的抽象RDD,能够在数据处理并行化的同时提供容错。Spark把Map-Reduce过程中的中间数据存储在内存中、把Spark应用中重要的RDD缓存在内存中,从而提高Spark系统的性能和内存利用率。本文基于分布式内存计算系统Spark,研究了Spark系统的实现原理、运行机制和资源管理,研究并测试了Spark系统的内存管理和使用特点,设计并实现了两种Spark系统的缓存策略——分布式权值缓存策略DWRP和二次执行缓存策略DERP。本文的主要贡献有:(1)研究分析了分布式内存计算系统Spark的实现原理、运行机制和资源管理方式。研究了Spark系统中内存的管理和使用方式。使用BigDataBench大数据标准测试集,通过实验测试和数据分析,重点研究了Spark系统中Shuffle Memory,Storage Memory的管理和使用特点。测试并分析了Spark系统中两种Shuffle方式的特点。(2)基于Spark1.4.0设计并实现了一种Spark系统中的缓存策略——分布式权值缓存策略DWRP。DWRP策略的主要思想是:首先利用RDD的分布式特征,筛选一部分RDD的分区,然后再利用RDD分区的大小,访问频率和缓存时间等特征计算筛选出来的RDD分区的权值,最后淘汰其中权值最小的RDD分区。DWRP策略适合运行多种Spark应用的Spark集群。(3)基于Spark1.4.0设计并实现了一种Spark系统中的缓存策略——二次执行缓存策略DERP。DERP策略的主要思路是:取原始数据的一小部分数据作为输入数据,第一次执行时得到该Spark应用的DAG图和应用特征。第二次执行为正式执行,使用所有的原始数据执行该Spark应用。在第二次正式执行时利用该DAG图和该应用的的信息主动淘汰某些无用的RDD分区,存储更有价值的RDD分区。DERP策略适合多次运行单一Spark应用的Spark集群。通过以上对分布式内存计算系统Spark的研究,我们的工作为进一步提高Spark系统的性能提供了有力的技术支撑,为进一步优化其他分布式系统的内存利用率提供了思路。
其他文献
“两个经常性”工作是新形势下抵制腐朽思想文化侵蚀和“灯红酒绿”消极影响,不断提高部队凝聚力和战斗力,加强部队全面建设的客观需要,各级党委应切实搞好“两个经常性”工
目的观察疏血通注射液治疗急性脑梗死的临床疗效。方法将76例急性脑梗死患者随机分为疏血通治疗组和复方丹参对照组,两组均连续用药15d。观察治疗前后神经功能缺损评分及血液
用固载金属卟啉模拟细胞色素P-450单加氧酶体系,具有重要的学术价值和应用前景。本工作用生物高分子甲壳素、壳聚糖和纤维素固载四苯基铁、锰和钴卟啉进行仿生催化空气氧化环
一、选择题(本题共7个小题,每小题6分,共42分。在每小题给出的四个选项中,只有一项是符合题目要求的)  2.下列说法错误的是()。  A.苯和溴水混合振荡后静置,上层液体为橙红色  B.淀粉和纤维素在人体内最终都水解成葡萄糖  C.乙烯和聚乙烯燃烧时的现象均为火焰明亮伴有黑烟  D.液态植物油通过氢化可以获得固态的人造奶油  3.用下列实验装置(如图1)进行相应实验,能达到实验目的的是()。  
期刊
目的:研究高良姜总黄酮(TFAO)的超声萃取工艺及其体外抗氧化作用。方法:采用正交设计优化TFAO的超声萃取工艺;采用化学模拟体系测定其抑制脂质体过氧化及清除·OH、O2g和DPPH
法治政府与行政诉讼制度的体系建构和效用发挥密切相关。在行政诉讼制度的目标设定中,权利救济被置于首位。近年来,我国行政诉讼在权利保障方面做了诸多调试,而这些调试又主
综合性医院建设与发展的核心内容是学科人才建设,本文介绍了笔者所在医院"十五"以来学科人才建设的主要做法和成效,并提出了下一步学科人才建设思路:统一一个认识,处理好三个
数据是新基建发展的“土壤”,共性基础设施建设促进了产业间数据的密切交互,也带来了海量化、耦合化的数据形态,传统“囚笼式”的数据规制方式已无法满足新基建数据动态发展
师生合作的教学模式就是要充分调动学生的积极性,在教师的积极引导下培养学生的独立思考能力。本文基于笔者多年的教学实践,从师生合作教学模式的基本原则出发,通过四个方面
现代生物科学技术的发展依赖于现代仪器设备的性能,这些仪器设备的性能决定了生物技术研究的水平。染色体切割装备的技术水平制约着染色体微切割、微克隆技术的应用。本文在