基于Apache Snark平台的大数据作业性能预测

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:loogog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息产业发展迅速,计算机硬件不断升级,分布式集群对于海量数据的存储和计算能力不断提升。在此基础上,近年来工业界诞生了一系列针对海量数据而设计的分布式框架,比如MapReduce,Spark,HDFS等等,Spark又因为其内存计算的特点博得了众人的青睐。但是在实际使用中,Spark超过200项的配置参数往往使人困惑,参数的不合理配置会导致作业运行缓慢和集群资源浪费。在此基础上,本文提出了Spark作业性能预测系统和配置推荐系统,目的是作业运行之前,对于作业的运行时间和资源占用率进行精确的估计,进而推荐最优的集群配置。本文的主要工作包含三大部分:作业性能监控系统,作业性能预测系统和配置推荐系统。基于Ganglia的作业性能监控系统,通过对于集群节点的实时跟踪,记录作业性能数据。作业性能预测系统使用基于改进局部注意力机制的encoder-decoder模型,通过作业在抽样数据集上的模拟运行,预测作业在真实数据集上的性能曲线。配置推荐系统考虑了作业的时延、资源占用以及资源申请释放带来的开销,在作业配置空间中进行搜索,结合性能预测系统,给出目标约束下的最优配置参数。此外,本文还构建了基准测试程序和数据集合,对于本文实现的系统进行了详细的测试。测试结果表明,性能预测系统的准确性较高,可以很好地满足性能预测需求,配置推荐系统给出的配置,对于作业运行的时间开销和资源开销均有一定的优化。这说明本文设计实现的系统,具有很强的现实意义。
其他文献
目的:系统评价单药地西他滨(decitabine,DAC)和D-CAG方案(D-地西他滨、C-阿糖胞苷、A-阿克拉霉素、G-粒细胞集落刺激因子)治疗老年急性髓系白血病Acute myeloid leukemia,AML)及复发/难治性急性髓系白血病(Relapsed/Refractory Acute myeloid leukemia,RR-AML)的临床疗效。方法:计算机全面检索PubMed、Em
目的:多发性硬化(multiple sclerosis,MS)是一种引起中枢神经系统(central nervous system,CNS)发生非创伤性神经功能障碍的慢性疾病,主要发生于20-40岁之间的青壮年,且全球
人体行为分析是机器视觉、模式识别、深度学习、人工智能等多个学科的交叉融合,在基于内容的视频检索、医疗辅助、人机交互、视频监控等多个领域具有广阔的应用前景。人体可
背景和目的OSAHS(Obstructive Sleep Apnea Hypopnea Syndrome,OSAHS)患者长期佩戴呼吸机的依从性差,使得其治疗有效率备受影响响。手术治疗成为许多OSAHS患者的另一种选择,术前采用药物诱导睡眠内镜(Drug-induced Sleep Endoscopy,DISE)评估上气道阻塞平面,可有效评估上气道塌陷情况,明显提高上气道多平面手术有效率。但DIS
新课程标准下注重培养学生的核心素养,全面发展学生的各方面能力。“二元导学”教学模式是以预习案与导学案为学习载体,让学生先学,然后在教师的引导下教学,侧重学生的自主学
复合化是金属材料提高力学性能的有效途径。在传统的金属基复合材料(MMCs)中,人们往往追求增强体在金属基体中的均匀分布,进而避免由增强体的团聚导致的应力集中和复合材料整
目的通过对采用直接前入路和后外侧入路行全髋关节置换术的术后早期髋关节X线片进行对比分析,从而探讨这两种入路的优缺点,为临床医生对于手术入路的选择方面提供参考。方法
作为一个民族声乐女高音,在研究生学习期间意识到了一个重要的问题,科学的发声方法是如此的重要。不能再过多的、无限量的使用自己的声带,也就是我们职业生涯中的“本钱”。我意识到,运用气息带动声带所发出的自然的物理运动,才是正确的、科学的发声方法,也可以说是一种无形的“利息”,且这种“利息”会越用越多。我们的声带在被保护的同时,不易感到疲劳,且能够演唱出更加明亮、自然、悦耳的声音。在这场音乐会当中我是这样
紫花苜蓿(Medicago sativa L.)具有适应性强、蛋白含量高、适口性好和营养价值高等特点,是全球栽培面积最大的优良牧草。由于我国草产业发展相对滞后,紫花苜蓿产量和种子严重不足,尽管进口量逐年增加,仍难满足市场需求。此外紫花苜蓿抗旱耐盐能力较弱,在干旱和盐渍化环境下难以生长,加之虫害的威胁,这严重制约了紫花栽培面积的扩大和产量的进一步提高。因此,利用分子育种手段培育兼具抗旱、耐盐和抗虫性
学位