论文部分内容阅读
能耗问题一直是制约数据中心可持续发展的关键问题。特别是随着云计算、大数据的快速发展,数据中心的规模越来越大,能耗也随之增长。据IDC research咨询公司提供的数据显示:2015年我国数据中心总能耗将达到1000亿kWh左右,相当于三峡电站一年的发电量,2020年将超过2500亿kWh,或将超过当前全球数据中心的能耗总量。因此,降低云数据中心能耗已成为一个急需解决的对于环境和经济发展具有重要影响的重大社会问题。如何有效应对数据中心的能耗剧增问题?不同的研究专家分别从不同的角度展开了深入研究。本文主要讨论:如何通过融合云数据中心计算虚拟化、存储虚拟化和网络虚拟化所带来的与传统数据中心不一样的软件能力,探索适合大规模云数据中心的软件节能机制和系统原型,从IT系统的源头上降低云数据中心能耗需求。主要工作和创新如下:(1)为了减少数据计算环节的能耗,本文分析了云数据中心负载变化规律和用户期望完成时间变化规律。并建立起了以满足用户动态满意度为中心的资源分配与调度模型一云数据中心基于用户行为特征的资源分配策略模型。并通过一系列针对实际场景下数据的统计与分析,论证了该模型在云数据中心场景下的正确性。在新模型中,云数据中心的资源调度与分配策略不仅依赖负载模型,同时依赖用户预期完成时间模型。当系统预测到负载高峰即将到来时,系统控制中心不再是单纯通知资源调度中心增加资源,而是会同步预测用户预期完成的时间,根据两个函数的预测结果实时刷新资源调度与分配策略。使得系统在满足用户预期任务完成时间的前提下实现任务并发最大化,从而提升单位资源利用率,减少无效的资源迁移与调度能源消耗。因为本文研究的方法是以满足用户静态SLA为上限的方法,所以该方法相对其他以固定SLA为基础的资源调度算法有着更低的能耗。(2)为了减少数据存储环节的能耗,本文系统地分析了云数据中心重复数据的分布规律,构建了云数据中心的重复数据分布模型,并提出了用户感知的高性能集群重复数据删除存储系统。在新系统中,重复数据删除系统不再基于重复数据分布的时间局部性和空间局部性特征设计,而是基于新特征一重复数据用户局部性特征而设计。即相关度越大的两个数据Owner之间的数据会自动划分到同一组中,检索重复数据时也按相关度的大小在划定的分组内进行检索。这样,新算法中需要常驻内存的指纹数量就不再随着数据的线性增加而线性增加,从而解决了重复数据删除系统单节点的性能瓶颈问题。除此之外,本文还剖析了集群重复数据删除系统普遍存在重删率、性能与可扩展性相互竞争的“三难问题”。并通过引入虚拟节点和全局编址法,解决了当前集群重复数据删除系统所面临的“三难问题”。如前所述,本文解决了重复数据删除系统的性能瓶颈问题,从而为其应用到主存场景做好了准备,也为大幅度减少主存设备中的重复数据,降低主存设备的能耗提供了有力支撑。(3)为了减少数据传输环节的能耗,本文设计了一个应用感知的网络数据传输模型。在该模型中,网络设备不再是单纯的数据转发与复制,而是可以主动感知上层应用软件的数据传输模型,并充分利用SDN网络的可编程特性,自动地进行流量整合与优化,减少云数据中心的东西流量,达到降低能耗的目的。本文将该模型应用到大数据处理平台的数据存储系统中,将存储阵列的元数据有策略地发布给SDN Controller,并动态调整OpenFlow switch的流表,由管道直接分发和重定向数据,减少数据在服务器端的重复处理和在数据中心网络中重复流动,休眠空闲部分网络设备或链路,提高传输效能,达到节能的目的。综上所述,本文主要围绕数据计算、数据存储和数据传输三个环节的节能减排进行技术创新和突破。为降低云数据中心的能源消耗提供技术支撑。