论文部分内容阅读
很多大型分析公司评估指出,生产集群中服务器资源利用率在15%到20%是很常见的;微软研究进一步指出,服务器即便在空闲时也会消耗超过其能耗峰值66%的能耗。显然,资源利用率较低的服务器浪费了大量能耗,是造成云数据中心能效不高的主要原因。然而,即便云数据中心服务器平均资源利用率较低,性能降级甚至性能故障问题依然频频发生。因此,如何在确保云服务性能的同时提升云数据中心能效,已经成为制约云服务提供商提升核心竞争力的关键问题之一,且该问题无法通过优化实例分配策略彻底解决。为了应对该问题,必须根据云服务实际运行情况持续开展云服务优化重部署。 与共享存储相比,本地存储的I/O性能价格比更高。因此,本地存储被众多云服务提供商采纳并用于其云计算服务,尤其是I/O密集型云计算服务。称此类服务为存储敏感的云服务,阿里云RDS是其中的典型代表。在生产环境对存储敏感的云服务开展优化重部署面临的一系列关键问题与挑战。 首先,本地存储的广泛使用使得实例迁移代价(迁移耗时与网络带宽等)显著增大;与此同时,生产环境缺乏准确预估实例迁移耗时的手段,运维人员受累于大量的手动迁移。其次,迁移抖动风险客观存在,不可避免;要减少或避免实例迁移抖动,需要在开展优化重部署过程中进行考虑和优化。第三,资源利用不均衡问题同样客观存在,不可避免。一方面,整体资源利用率较低,通过云服务优化重部署提升云数据中心的能效潜力巨大;另一方面,必须在开展优化重部署的过程中持续监测并及时处理高负载服务器带来的隐患。第四,在生产环境中开展云服务优化重部署,还必须满足一系列约束。这些约束包括但不限于:维护窗口时限约束、运行环境动态变化且无法预知、服务器资源利用率上限约束、单服务器部署实例数上限约束,以及最大并发迁移任务上限约束。 针对本地存储的广泛使用使得实例迁移代价(迁移耗时与网络带宽等)显著增大,生产环境缺乏准确预估实例迁移耗时的手段使得运维人员受累于大量的手动迁移的问题,提出存储敏感的实例迁移代价模型,从而优化和控制云服务优化重部署的代价。 针对云数据中心服务器资源利用率普遍较低这一现状,提出存储敏感的云服务优化整合方法。该方法使用基于迁移耗时的迁移代价模型筛选下线服务器,从而有效优化优化整合的迁移代价;使用基于Worst-Fit的启发式算法筛选迁入服务器,从而有效改善资源利用不均衡问题;同时,以上两种策略能够有效减少或避免迁移抖动的发生。 针对云数据中心资源争抢导致的性能问题频发,提出存储敏感的云服务负载均衡方法。该方法综合考虑实例迁移代价、高负载服务器与迁出实例的负载特性筛选迁出实例,使用基于Worst-Fit的启发式算法筛选迁入服务器,从而在改善资源利用不均衡问题的同时,优化负载均衡代价,并且减少或避免迁移抖动的发生。 最后,基于本文提出的方法,设计并实现了存储敏感的云服务优化重部署系统,并将该系统部署于阿里云RDS生产环境开展大规模实例验证工作。目前该系统已部署、运行近两年时间;通过持续开展优化重部署工作,该系统在定位迁移瓶颈、优化迁移策略、优化迁移代价、避免迁移抖动、改善资源均衡以及支撑天猫双十一六个方面取得了显著的应用成果。