Spark缓存机制和作业调度策略研究

来源 :四川师范大学 | 被引量 : 0次 | 上传用户:chenhonghongshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,每天都会产生海量数据。如何快速且准确的从海量数据中提取高价值的信息,成为当前的研究热点,大数据处理技术便随之产生。现如今,应用最广泛的大数据处理框架有Hadoop和Spark,Hadoop最先诞生,其使用MapReduce计算框架结合磁盘完成任务处理。Spark通过对数据集进行抽象处理提出了 RDD数据模型,并引入基于内存的计算模式,从而大大的减少了数据传输的时间并提高了作业运行效率。本文基于Spark计算平台,研究了其进行分布式计算时内存管理和作业调度策略,首先通过对内存管理进行建模和分析,发现现有的内存管理中的缓存替换算法存在缺陷,并提出进行改进方案,使得有限的内存可以得到充分的利用。然后对Spark Standalone中默认的作业调度策略进行形式化分析,提出了新的作业调度策略,该策略提高了作业的运行效率。下面将详细介绍本文的主要研究工作:(1)提出一种基于RDD分区权重的缓存替换算法。目前,Spark采用的缓存替换算法LRU存在缺陷,即会使高重用但最近未使用的Block容易被换出缓存。针对上述问题,现有的研究工作提出了以权重大小为替换依据的缓存替换算法。但这些基于权重的缓存替换算法存在权重值计算不准确、考虑因素不全面、度量方法不够细致等问题,影响了缓存的命中率和作业执行的效率。因此本文提出了一种新的RDD分区权重缓存替换算法——WCSRP。为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了 Task执行时的Locality Level,并对以上五个因素进行了量化计算。(2)提出基于作业分类自适应作业调度策略。Spark作为一个基于内存计算的可扩展的开源集群计算框架,其作业的调度策略和资源的利用率直接影响着集群计算处理的效率。目前,Spark中使用的作业调度策略并未考虑到集群中各节点的计算能力存在差异,在进行工作节点分配时,仅通过空余核数进行排序。因此,本文提出了一种新的作业调度策略。该策略分为两个方面,首先是通过预运行对作业进行分类,将作业分为CPU密集型和内存密集型;其次是通过实时监测节点的资源利用情况,根据监测所得数据计算每个工作节点的计算能力值,将计算能力值靠前的工作节点优先分配给待运行作业。
其他文献
高校国防教育是我国全民国防教育的重要组成部分,是国防建设的灵魂骨干工程,也是高校思想政治教育的进一步拓展。思想政治教育是国防教育的基础,是国防教育的基本组成部分。
在我国首批20个建筑能效标识测评项目中,中国石油大厦经过测评最终节能率为75.07%,依据《民用建筑能效标识测评导则》理论标识为三星。本文介绍了中国石油大厦概况及新技术应
美术教学的特殊性决定了它不仅要注重教学结果.更要强调教学过程中对学生能力的培养和锻炼.对学生良好个性品质、审美感受和创新意识的培养。因此.美术课再也不像以前那样,教师在
鄂尔多斯盆地延长组下组合具有良好的勘探潜力,先后发现了靖边、安塞等大油田。目前研究认为,三叠系延长组石油主要以长7烃源岩为主,但研究区长8与长9也存在厚度较大暗色泥岩
金属增材制造技术为形状复杂、工艺复杂、传统制造技术难以加工的金属零部件的制造提供一种行之有效的新方法。但因构件在快速凝固条件下材料微观组织特征及演变规律、弹性模量等力学性能参量以及气孔、夹杂、未熔合、微裂纹等不同缺陷类型、尺寸、数量、分布等与传统的铸锻工艺相比迥然不同,并且缺陷的种类、数量、尺寸及位置、材料的力学性能参数、孔隙率对增材制造构件的成品零件的质量、力学性能、构件在实际使用中的服役安全性
合成了新型可聚合的单季铵盐阳离子表面活性剂(PMQ)和双季铵盐阳离子表面活性剂(PDQ)。其结构经^1H NMR和元素分析表征。在25℃的中性水溶液中PMQ和PDQ的临界胶束浓度分别为25.1 m
近些年来,英语教师身份认同研究逐渐成为外语教师教育领域中的热点话题。之前的英语教师身份认同研究多为定性研究,目前虽然对英语教师身份认同总体状况的定量分析也逐渐增多
近年来,国际恐怖主义日渐猖獗,恐怖分子袭击各类建筑场所的事件频发,我国境外中资企业机构因所处环境复杂,容易受到恐怖袭击。国内对建筑物防范恐怖袭击风险评估的研究较少,相关防范恐怖袭击的防护指导操作性、实用性不强,缺乏一套针对性、实用性强的风险评估方法和防护设计方案统一标准,极大地制约了境外中资企业机构安全管理能力的提升。随着“一带一路”倡议的提出,越来越多的中国企业机构“走出去”,境外中资企业机构安
本文以云南省普洱市县域经济协调发展为研究对象,论文按一般性区域协调发展研究的步骤,对经济差异进行测度,以此为基础,从经济韧性的视角,并按照经济韧性研究的一般方法轨迹法对政府在县域经济协调发展中的作用进行分析。本文利用泰尔公式为代表的广义熵指数和杜邦分解的思想,利用财政收入数据和财政支出数据对泰尔指数进行分解。结果显示,普洱市的经济差异呈逐渐下降趋势。虽然极差和人均GDP标准差显示效果不明显,但利用
某大型保险资产管理公司投资经理表示,金融股估值较低,但如果今年以来重仓持有银行、券商的投资账户收益远远落后大盘。他认为,目前绝对是逼空行情,小票疯狂,不得不向市场低头。而
报纸