论文部分内容阅读
随着云计算的兴起和大数据时代的来临,大规模集群存储系统在IT基础设施中的重要性日益突出,所面临挑战亦愈加严峻。其中,系统资源及能源使用效率低下问题亟待解决,它严重阻碍了I/O性能的提升,并成为诱发高存储成本的重要因素。 通过分析应用所表现出的一般性数据访问特征,本论文指出,不匹配的供求特性是造成集群存储系统效率低下的重要原因。一方面,系统资源及能源的供给呈现刚性,即单个存储节点及系统整体在存储空间容量、I/O带宽资源以及能耗功率等方面均呈现出相对的恒定性;另一方面,应用的数据访问需求则呈现弹性,即数据访问热度在时间及空间分布上均呈现出显著的变化。 本论文进一步指出,供求特性匹配的关键在于单节点所承担数据访问需求量的刚性化以及系统整体资源和能源供给量的弹性化。前者依赖放置算法的负载平衡能力,后者依赖放置算法对成比例能耗的支持能力。同时具备上述两种能力的放置算法可保证较高的资源及能源使用效率,从而有效提升系统的I/O性能并降低总体拥有成本。围绕高效放置算法这一研究主题,本论文的主要贡献如下: 首先,揭示了静态副本放置算法在负载平衡能力方面的局限性。从理论上分析了静态副本放置算法对资源的使用效率,得出系统规模增长对资源效率的影响规律;阐释了静态副本放置算法的资源效率危机以及动态副本放置算法研究的必要性;为工程应用确立了静态副本放置算法的适用性准则。 其次,揭示了以节点负载状态为中心的动态副本放置算法在成比例能耗支持能力方面的局限性,阐释了该类算法下的能源效率危机;针对动态副本放置算法集中式迁移机制的单一瓶颈点问题以及基于随机算法的分布式迁移机制的高迁移代价问题,提出了可收敛的分布式解决方案,通过相关实验验证了所提方案的可行性和有效性,并得出迁移代价优化的若干准则。这些准则可用于指导新型分布式迁移机制的设计。 最后,提出了同时具备负载平衡能力和成比例能耗支持能力的新型动态副本放置算法Superset。该算法通过非均一的副本数指派策略,可适应不同文件的访问热度需求,以较低的存储空间总成本保证系统的负载平衡能力;通过不相交节点子集合所存储文件子集合满足超集关系的副本放置格局和以文件访问热度排名为中心的迁移机制,可保证对成比例能耗的支持能力,并满足轻量级迁移代价要求。实验结果表明:同已有算法相比,Superset可显著提高系统对资源和能源的使用效率。在相同资源及能源成本约束下,Superset可使I/O吞吐量提高2-4倍;在保证相同I/O吞吐量指标下,Superset可实现50%以上的能源成本节约。