【摘 要】
:
云计算技术的发展使得数据中心的规模和数量不断扩大,随之而来的问题是能耗成本越来越高。Hadoop是现阶段应用广泛的数据处理平台,在数据中心的部署规模巨大。如何降低Hadoop集群的功率消耗,既节约成本,又保证服务质量,是当前研究的热点问题。本文从实际应用出发,首先分析了传统Hadoop集群的YARN和HDFS数据块存储的原理。Hadoop YARN的主流调度策略更多关注于计算资源的分配,忽略了集群
论文部分内容阅读
云计算技术的发展使得数据中心的规模和数量不断扩大,随之而来的问题是能耗成本越来越高。Hadoop是现阶段应用广泛的数据处理平台,在数据中心的部署规模巨大。如何降低Hadoop集群的功率消耗,既节约成本,又保证服务质量,是当前研究的热点问题。本文从实际应用出发,首先分析了传统Hadoop集群的YARN和HDFS数据块存储的原理。Hadoop YARN的主流调度策略更多关注于计算资源的分配,忽略了集群任务处理量的动态变化,导致集群节点可能长时间处于低负载的状态而造成能耗浪费。同时,数据节点存储的数据块会有相当大比例的时间变为冷数据,而且这些数据会占用计算节点的存储资源。针对以上问题,本文结合Hadoop的系统结构和原理,进行了如下研究工作:(1)设计了针对Hadoop集群的节能系统方案,包括底层集群节点的数据收集,中间层的能耗模型、节点负载的预测,上层的作业调度。方案的每层都结合开源工具和框架的优点,使得整体Hadoop方案达到较好的节能效果。(2)Hadoop集群的负载在多数情况下处于很低的水平,但是节点依然以较低的负载运行。本文提出了基于长短期记忆网络LSTM的节点负载状态预测任务调度算法HES-Scheduler,该算法根据集群输入的任务量,休眠负载较低的节点,以达到节能的目的。调度流程分为两个阶段:首先用LSTM训练节点的历史资源数据,得到预测模型来预测集群节点在未来周期时间的资源使用情况,通过预设的负载阈值将节点划分为活跃节点队列和休眠节点队列。其次,按照能耗最优的原则选择作业进行调度。通过仿真实验,将HES-Scheduler与Hadoop YARN的FIFO,Capacity和Fair策略比较,表明该算法取得了较好的节能效果。(3)基于数据块的访问规律,对Hadoop集群数据块的存储方式进行改进,提出了 HES-Storage数据块存储策略。该策略根据节点的预测状态和预设阈值将集群划分为冷、热区域:在热区域采用Hadoop默认的存储策略,利于提高服务质量;在冷区域采用集中式存储以提高其数据块的存储量。同时,定时从热区域中将“变冷”的数据迁移到冷区域的缓冲队列中,周期性统计缓冲队列数据块的访问频度,将达到休眠阈值的节点休眠。最后,通过实验分析了在一段时间内的休眠节点的数量变化情况和能耗值,表明该策略具有较好的节能效果。
其他文献
自2016年起,肇庆公共资源交易平台已经运行了3年,对肇庆市公共资源的有效配置起到了积极的贡献,为肇庆市在市场化进一步深入和信息化时代背景下探索公开、透明和高效地进行公
人脸识别一直是身份识别的热点研究领域。特征提取和分类识别算法是人脸识别中的两大问题,但非特定情境下很容易受到表情、姿态、饰物、头发以及光照等因素的影响。本文主要针对人脸的局部纹理特征及深度信念网络模型进行研究,主要工作如下:1、提出了一种基于TPLBP特征和深度信念网络人脸识别算法模型。该模型先提取人脸的TPLBP特征;再采用深度信念网络对之进行学习和降维;最后采用Softmax分类器对人脸进行识
在银行商业智能系统的建设过程中,报表系统是数据应用的集中体现,如何解决好报表系统问题显得尤为重要。传统的报表系统存在着各种问题,尤其是报表制作难、变更难、报表执行
随着机器人、物联网等技术的发展与普及,应用自动导引车(AGV)的智能物流仓库以其高效的运作效率赢得了广大企业的青睐。在自动导引车系统(AGVS)中,主要存在碰撞与死锁两大难题,过去的仓库设计者往往采用单行线地图的方式规避该问题,但这种过于保守的地图设计策略将导致AGV需要绕行更远的距离才能抵达目的地,限制了AGVS的性能发挥。本文旨在保证AGVS较高运行效率的前提下,提出有效的交通控制策略,确保系
自治是国际体育仲裁的品质,司法是解决体育纠纷的最后阀门,两者的冲突不可避免。为了更好的实现国际体育纠纷的高效和公正的解决,实现两者的协调也成为必要。本文采用文献研
风是描述大气运动状态的基本参量之一,全球风场的精确测量对于提高数值天气预报的准确性有着重要的作用。激光雷达具有很高的时空分辨率,近几十年发展迅速,在对地观测的贡献
自主导引车AGV(Automatic Guided Vehicle)调度系统提供了一种可以在工业生产环境中提高生产效率,降低劳动强度和危险性的途径。由于仓库空间,货架布局,路径设计等因素的限制
随着贸易成本、通讯成本的降低,全球价值链分工逐渐细化。各国基于比较优势嵌入国际分工不同生产环节,以实现价值增值,全球价值链分工逐渐成为主流。农产品加工业获利能力有
明喻识别需要判断输入句子的类别(即是否属于明喻句),并识别句中的明喻成分(如,本体和喻体),是一项具有重要研究价值的文本挖掘任务。明喻句是指使用“像”或“犹如”等比喻
随着医疗数字化、智慧医疗和移动医疗等技术的快速发展,医疗数据的隐私安全问题也受到广泛关注。亟待新的方法解决医疗健康数据的隐私保护问题。近年来,随着区块链技术的发展