论文部分内容阅读
信息的爆炸式增长推动互联网进入了大数据时代,随着大规模数据计算需求的增加和云计算集群的规模急剧扩张,大数据计算平台的能耗问题变得日益突出,过高的能耗所带来的电能损失不仅为云服务商增加了资金成本,同时也对环境带来了不可逆的损害。如何保证云服务提供商在满足用户服务等级协议(SLA)的前提下,尽可能的降低能耗,成为了大数据计算平台能耗研究亟待解决的问题。Hadoop1.0在可扩展性、计算效率和资源利用率方面存在诸多不足,Hadoop2.0将资源管理功能抽象为YARN资源调度框架。Spark内存计算框架基于Hadoop生态体系,很好的弥补MapReduce在计算性能以及高级数据分析处理方面的不足。Spark on YARN架构越来越多的被云服务提供商在数据中心广泛应用,本文从实际出发,针对Spark on YARN原生调度算法在能耗方面的不足,结合动态电压频率调整技术(DVFS)技术进行节能优化,主要的研究工作如下:1.本文设计并实现了基于DVFS的节能调度系统,并构建了基于频率的CPU能耗模型。在原生Spark on YARN的基础架构上进行优化,通过状态监控模块对应用程序运行过程中的状态信息进行监控获取,通过能耗评估模块对应用程序能耗进行定量分析,通过频率调整模块利用DVFS技术动态调整CPU频率。为之后的研究提供了平台支持。2.提出了一种基于DVFS频率感知的YARN层节能策略,针对应用程序的多样性,本文选取了三种基准应用程序,测试了其在不同频率下的计算性能以及能耗表现,为每种应用类型定位在满足其SLA标准下的最低能耗频率,对于未知目标应用程序,通过K-Means算法对其与基准应用程序进行聚类,定位其最相似的基准应用程序,通过DVFS技术对处理器频率进行预处理,在保证计算效率的前提下,达到节能的效果。3.针对数据规模较大时数据倾斜导致的YARN层节能策略计算效率下降等问题,对Spark层调度算法进行优化,提出了一种基于DVFS的双层频率感知节能策略。结合Shuffle机制的特点,利用DVFS技术动态调整Stage生命周期内各个Task所部署节点的CPU频率,减少节点空闲时间,降低能耗,提高Task完成时间均衡度。同时利用DAG图计算不同Stage的权重,对于权重值较高的Stage分配性能较优的计算节点,在保证SLA的前提下,减少各个节点空闲作业时间,进一步提高节能效果。