论文部分内容阅读
集群存储系统作为新一代企业级存储架构,是云计算和大数据时代应对存储容量压力、I/O性能瓶颈、存储成本危机等诸多挑战的重要解决方案。现有集群存储系统一般由大量廉价商用存储设备构成,节点失效和硬件故障被认为是一种常态。为此,副本技术被广泛运用于该存储架构中以保证系统的高可靠性和高可用性。随着云计算技术和大数据应用模式的不断发展,如何针对个体服务质量敏感的大数据应用、多样化的I/O负载及集群存储系统的新特性,高效地实现多个副本的“存”和“取”,即副本的放置和选择,是当前集群存储系统副本管理研究中需要解决的关键问题。现有工作在分布式存储系统的副本放置和选择方面取得了一定进展,但仍存在诸多不足。在静态副本放置方面,已有策略的负载均衡能力尚缺乏有效的理论证明,适用范围不清晰,且未考虑存储节点的异构性,应用具有局限性;在动态副本放置方面,现有算法虽然具有更加灵活的I/O负载均衡能力,但会增加系统的复杂性并导致副本放置呈现无序化,且同样未考虑存储节点的异构性,严重影响系统能效和应用性能;而在副本选择方面,已有策略选择标准单一、可扩展性差,没有从大数据应用角度出发考虑按需服务的数据请求,无法满足越来越多的个体服务质量敏感的大数据应用。本文针对异构集群存储系统副本管理中放置和选择两个关键技术,研究相关机制和算法,为构建大容量、高性能、低成本和强扩展性的集群存储系统提供合理、高效的副本策略,以满足当前大数据应用对存储系统提出的迫切需求,具体的研究内容主要包括以下四个方面:第一,结合排队论对异构集群存储系统的静态副本放置策略展开递进式研究,以期解决现有工作所存在的问题,为集群存储系统的整体设计和规划提供理论依据;第二,以目前主流的Hadoop作为研究对象,提出一种面向大规模异构Hadoop集群存储系统的动态副本放置策略,能够充分利用集群中高性能节点提升大数据应用任务的执行性能,同时提高集群系统能效并节省一定的存储开销;第三,提出一个QoS偏好感知算法获取个体服务质量敏感的大数据应用的非定量QoS偏好,结合系统当前副本放置方案,在多维QoS约束下解决最佳副本的选择问题:第四,基于东南大学云计算平台,设计并开发面向AMS大数据应用的分级存储数据管理系统,为AMS大数据处理的高效快速执行提供合理的副本策略并验证本文的理论研究工作。本论文对面向大数据应用的异构集群存储系统的副本放置和选择策略进行了深入探索,通过一系列仿真实验和AMS大数据处理的实验结果表明,本文所提的相关机制和算法能够对异构集群存储系统中的数据及其副本进行合理、高效的管理和优化,可为实际应用中异构集群存储系统的副本管理服务提供行之有效的解决方案,为大数据存储管理的发展做出有益贡献。