论文部分内容阅读
随着人类社会的发展,社会的信息化程度越来越高,作为记录信息载体的数据也随之迅猛增长,应运而生的大数据技术也越来越多的应用到实际生活中方便人们的生活。大数据技术的应用离不开数据的存储,而对于存储大数据的集群,其能耗也是一个不容忽视的问题。本文通过对集群文件访问规律及集群服务器能耗规律的认识,发现集群中普遍存在节点使用率低下的问题。因此本文主要的研究内容是通过对集群规模进行动态调整来提高节点使用率,降低集群的能耗。首先本文结合传统的静态分区及动态分区的优点将集群划分为三大区域。然后在此分区基础上,针对集群规模动态调整需要迁移大量的数据块的问题,提出了面向IO优化的集群规模调整,可以通过尽可能少的数据块迁移达到快速调整集群规模的目的。其次基于数据特征的分区存储对集群中存在的冷,热数据采取不同的存储策略,针对于冷数据提出负载集中存储策略,节省了存储大量冷数据的服务资源。另外针对于广泛采用的LRU算法对于偶发性的、周期性的批量访问会导致命中率急剧下降,本文提出了双因子淘汰缓存算法及对其进行改进,通过考虑文件访问次数和时间两个因子提高了命中率。为了验证本文提出的一系列的集群节能策略,本文开发了模拟Hadoop运行的集群仿真平台,该仿真平台分层的设计模式,对于新的节能策略,只需在策略层中编写相应的策略函数编译即可。该仿真平台用户可以自定义集群缓存策略,数据迁移策略,集群节能等一系列应用于集群的仿真策略。通过仿真实验结果表明:使用本文节能策略的HDFS比传统HDFS节能37%~42%,另外由于策略的实施对系统的性能具有轻微的影响,其中0.3%的访问需要唤醒服务器。但是由于本文采取了缓存策略,缓存的命中率在13.5%左右,而广泛采用的LRU算法的命中率为8.4%,最后对集群的性能提高了5.1%。