论文部分内容阅读
随着Internet技术的快速发展,特别是Web2.0应用的普及,数据量开始爆炸性的增长,云存储虽然能有效解决传统文件系统处理大数据时在容量和性能上遇到的瓶颈,但也容易出现数据不可用等问题,而且云存储不能根据数据访问负载变化实现有效的可伸缩,从而产生了高昂的能源成本。所以让云存储提供高效率、高度可靠的数据存储服务并有效降低系统整体能耗,已经成为当务之急。目前,已有研究利用多副本管理策略实现系统的负载均衡,但是缺少同时考虑能源高效方面的策略。另外现有的能源高效技术存在一个普遍的不足:虽然实现了成比例能耗,但是都不能很好的支持系统负载均衡,而且能利用数据的多副本这一特性来实现能源高效的研究也相对较少。本论文针对云存储中多副本技术研究出现的上述问题,对兼顾负载均衡和能源高效的多副本管理策略展开研究,通过多副本管理实现数据访问高效和能源高效,主要工作内容如下:(1)在负载均衡方面:首先利用负载均衡的实现原理和对文件潮汐特性的分析,提出了基于时间序列的文件访问热度计算模型,并以这个计算模型为基础给出了以文件访问热度排名为中心的副本因子分配算法,实现了文件副本数量的动态调整。然后提出了基于放置代价的副本放置机制,根据放置代价的大小选择最佳的副本放置节点。最后提出了基于带权重的欧几里得距离副本选择策略,充分利用多属性决策问题上的优势,把这个距离值作为副本选择的评价标准,为用户从多个副本中选择最优副本。通过仿真实验表明自适应负载均衡副本管理策略的负载方差比静态副本策略小34%,作业的平均执行时间降低27%,使系统性能得到了提高,能为用户提供高效的数据存储服务。(2)在能源高效方面:首先通过对文件生命周期特性的分析,揭示了能源利用率低下的原因。然后提出了能源高效动态副本放置机制,利用数据多副本的特性结合特定的副本放置布局为实现系统的可伸缩做好准备,最后给出了能量感知的集群伸缩设计,根据系统的负载状态休眠和唤醒数据节点,有效的提高能源利用率。通过仿真实验表明能源高效动态副本放置策略在实现能源高效方面比静态副本策略降低了16%的能耗。