【摘 要】
:
目前大数据技术迅速渗透了各行各业,也产生了多种数据处理需求:批处理、实时事件处理、机器学习等。在这样的背景下,Hadoop在其第二代(Hadoop2.0)引入了YARN进行资源管理,YAR
论文部分内容阅读
目前大数据技术迅速渗透了各行各业,也产生了多种数据处理需求:批处理、实时事件处理、机器学习等。在这样的背景下,Hadoop在其第二代(Hadoop2.0)引入了YARN进行资源管理,YARN是Hadoop提供的解决多维需求的方法,将Hadoop从单一的“批量存储/处理”系统,转换成真正的多用途平台。然而,通过分析生产环境中这样异构的负载,我们发现集群中的任务不成比例地共享资源,即少量长任务消耗了大部分集群资源。同时还发现,这样的负载下存在大量的资源碎片,即已经分配但是还未使用的资源。因此,本文通过拓展YARN,采用混合结构的调度方式,从而将长短任务分开进行处理,并且让分布式调度器利用资源碎片。本文在YARN的基础上研究了混合结构调度方式,即向原先的调度系统中添加分布式调度器。此时调度系统中存在两种调度器,这两种调度器各有不同的特点:1)中央调度器可以为异构的应用提供严格的调度不变量保证(例如fairness、capacity);2)分布式调度器可以提供可拓展的高效的调度,但是难以实现调度不变量。我们设计使用中央调度器来处理长任务,因为中央调度有全局的资源视图,可以从多个维度优化资源分配。对于短任务,我们使用分布式调度器通过过分配的方式来利用集群中的资源碎片。因为现在整个调度系统中有两条调度路径,我们首先要解决的问题是如何选取合适的调度路径。我们将这个工作放在应用框架中来做,因为应用更能理解自己对资源的需求。不失一般性地本文在Map Reduce框架中使用采样执行和回归分析相结合的方法来鉴别短任务。另外,因为我们使用分布式调度器来利用过分配资源,所以节点很可能出现拥塞的情况。对于这个问题,我们提出了一种主动避免的解决方法,通过学习作业历史数据来训练拥塞避免模型,使用该模型指导调度器放弃可能会出现拥塞的决策。最后通过对比实验,使用多种负载,包括重现真实生产环境负载、典型benchmark负载和混合负载,验证了短任务选取模块、拥塞避免模块和整体性能改进。实验表明,混合结构调度器提升了集群的任务吞吐量,进而提高了资源使用率,缩短了任务完成时间。
其他文献
轴承是影响高速列车行车安全的关键零部件。车载监测系统采用温度传感器进行轴承状态的实时监测,并基于设定的温度阈值进行报警,有效避免了重大安全事故的发生。但这种策略也存在不足:一旦触发报警,需要立即采取降速或停车措施,无法为事故的处理提供足够的时间裕量,严重扰乱列车运营秩序,并容易造成经济损失和不良的社会影响。因此,提升高速列车轴承的智能化诊断水平与提前预警能力,具有重要的研究与工程价值。然而高速列车
介绍了一种特高压直流输电阀控接口信号监测系统的开发与应用情况。该接口信号监测系统通过软件模拟,一方面产生直流控制保护系统对阀控的接口信号,另外一方面产生换流阀与阀
有机发光二极管(Organic Light-emitting Diodes,OLED)具有视角广、功耗低和反应速度快、透明度和颜色调试能力独特等特性,成为了下一代低成本、高效率、高质量发光器件的首选
新式茶饮是快餐文化发展的产物,有别于传统茶饮,更符合快节奏的社会发展。近年来新式茶饮发展迅速,其特点贴近都市快生活的生活理念,在大中城市内普及率非常高。从老字号台湾
由于传统化石能源的大量使用,全球温室效应和能源危机的问题日益凸显,加快清洁能源发展并提高能源利用效率势在必行。在我国风力发电行业迅猛发展的同时,弃风问题也不容忽视。我国北方地区富风期与供暖季高度重合,热电机组的电热耦合特性限制了大规模风电的并网空间,造成了弃风现象高发。需求响应技术以其调度潜力大、灵活性高、投资少等优势受到高度关注,为电力系统的优化运行以及风电消纳问题提供了有效途径,并随着能源互联
随着中国国际化的发展,外国人在华教育需求也日益增强,汉语教学更是国际教育中的重要项目。在国际学校中的汉语教育虽有强势的发展势头,但是在实际的操作中也有诸多的教学问题需要进行深入的探讨。本文通过在北京乐成国际学校汉语课程的实践教学,对汉语作为国际学校学生的第二语言习得问题作较为深入的调查研究,通过调查发现问题、实验测试、分析原因,来尝试找到相应的解决问题的策略,并在此基础上提出相应的教学建议。本论文
基于电力大数据应用,运用神经网络算法,建立了班组资源优化策略及效能提升模型,实现班组内部因子的调整对班组效能影响的预测。从应用目标、技术路线、数据挖掘分析、模型应
在校读三种不同版本的弩尔哈赤实录①的过程中,发现其中某些用词颇不一致。为了弄清其本义,年来自学了若干满文单字并粗略阅读了满、汉文对照的《满洲实录》。进一步发现,对
辽宁省本溪市地处辽东山区,不仅是全省的重点林区,也是重要的水源涵养林基地。油松、赤松是主要的常绿树种,特别是赤松为长白植物区系的代表种,十分珍贵,在森林生态环境中起
人脸识别在模式识别领域中具有重要的研究价值和应用意义。现实环境中采集到的人脸图像往往因光照、装扮、噪声和遮盖等影响形成低质量人脸图像。对于低质量图像的人脸识别,