基于性能预测的Spark资源优化分配策略

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cdy516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark已经成为如今最流行的分布式大数据计算平台,由于其高效的性能、良好的容错性与统一性,在业界得到了广泛的使用。但由于Spark平台对数据的具体操作对于用户来说是透明的,Spark上运行的任务受到许多因素的影响,比如数据的分区策略,算法的设计与实现以及节点的资源分配等等。使得对Spark性能预测的非常困难。本课题通过建立基于Spark任务结构的性能模型,研究Spark任务在不同数据量、分区策略的情况下的执行时间,并在此基础上寻找任务执行时间与集群资源消耗间的平衡,提出基于动态重分区的资源分配优化策略。本文在细粒度监控集群资源的基础上,解析Spark任务各阶段的执行信息,建立基于Spark任务结构的性能模型,通过大量的历史实验数据训练模型参数,实现了对不同负载类型Spark计算任务的性能预测。在此基础上,我们研究了分区策略对Spark执行时间的影响,我们发现尽管增加节点的并行度可以在一定程度上提升计算任务的性能,但在一些情况下,性能提升的幅度与新增的资源消耗相比起来,可以认为是微乎其微的,当我们已经满足了用户在任务运行时间方面的需求,这些微小的性能提升便可以忽略,相应的,我们应该在用户给出的时间要求下尽可能的减少资源配置,以达到节约资源的目的。我们将会通过在一系列的实际Spark计算任务中加入动态重分区的方式寻找任务的最佳分区方案,提出基于任务时间预测的重分区策略。在不过多牺牲任务运行时间的前提下,节约集群资源,找到任务执行时间与集群资源配置的平衡,指导用户对Spark任务合理使用集群资源。本文通过实验验证了性能模型的合理性与对任务执行时间预测的准确性,取得了不错的预测准确性。在此基础上我们提出基于性能预测的资源优化分配策略,在Spark负载集合中通过动态重分区的方法,寻找优化的集群资源分配策略,以取得任务执行时间与集群资源消耗间的平衡。实验结果表明,我们的优化策略可以用户给出的执行时间内较为明显地节约集群资源,在任务执行时间与集群资源消耗之间寻找到了良好的平衡。
其他文献
本文推荐一种非金属型光缆,这种光缆含有嵌入骨架槽内的光纤带,采用能防猎枪弹丸的耐高冲击护套。通过对光缆直径和防弹性能的试验研究,得到保护层和聚乙烯外护套厚度的最佳组合
行政垄断与无序竞争并存的二元结构是中国外贸体制转换时期的显著特征.现阶段的出口无序竞争是出口企业经营战略选择上合成谬误的表现,而这种合成谬误是外贸业市场结构不合理
本文以同时发行A股和H股的16家双重上市公司为样本,利用固定效应模型对H股折价率作了实证分析。研究发现:A股和H股市场的软分割因素主要有公司规模、股份流动性以及A股流通股股
针对双辊铸轧工艺制备的铜铝复合板材,采用剥离试验和拉伸试验,对其力学性能进行了检测。采用扫描电镜、能谱分析仪和透射电镜等仪器对复合板界面层组织的微观形貌、结构和成
咳嗽是中医内科病证中最为常见的病证之一,而且发病率高,是很多疾病的一种症状。治疗咳嗽,应根据发病因素、身体素质、临床表现等综合分析,做到辨证准确,治疗得当才能收效。
广西网络经济萌芽于"九五"初期,近年来得到蓬勃发展,但同先进省、市相比,存在着巨大的"数码鸿沟".今后一个时期,应根据广西的经济技术水平,以"有所为,有所不为"为指导,分阶段
文章以河池市乡镇财政建设为例,研究了目前乡镇财政建设中存在的薄弱环节,并提出了相应的对策.
漏泄同轴电缆作为一种将信号传输、发射及接收功能溶为一体的高频传输线,近年来取得了很大的发展,突出表现在超宽使用频带,同一根电缆可以同时具有80MHZ、150MHZ、400MHZ、900MHZ或更多的工作频段。本文
广西已初步具备了改变欠发达经济的基础和条件。加快广西经济发展需重视的几个重要问题:明确未来发展所面临的国内外环境;将“南北钦防”经济区作为未来发展的重中之重予以扶持