论文部分内容阅读
随着大数据时代的到来,大规模数据存储成为大数据的关键技术之一。分布式存储系统大多部署在廉价的商用机器上,节点失效已经成为一种常态。因此,如何构建面向海量数据的可靠存储机制成为相关技术研究的热点。传统基于多副本的容错策略存在存储开销过高和容错性差等问题,使其成为影响系统可扩展能力的瓶颈。近年来,业界开始提出使用纠删码策略作为存储系统的容错机制,但纠删码策略存在数据修复带宽消耗过大问题。为此,学界转向对基于网络编码的再生码存储策略开展研究。再生码在修复时能达到最优带宽开销,但再生码计算开销巨大等问题阻碍了其被广泛应用。另外,大多数存储系统只使用固定的单一的编码方法作为容错策略,忽视所存储文件本身的差异性,使得性能优化还存在缺陷。 针对上述问题,论文以构建低冗余、高可用、高可靠的分布式存储系统为目标,以基于HDFS的编码存储系统Cumulus为平台,对基于再生码的容错分布式存储及其性能优化机制开展研究。主要工作包括以下两个方面: 1)针对现有编码方法的不足,结合存储效率、访问延迟、修复带宽、计算复杂性等多维因素,提出了基于简单再生码的分布式容错存储方案,在此基础上进一步对简单再生码的退化读修复机制进行优化设计,并在Cumulus系统中实现了基于简单再生码的容错存储策略。实验结果表明,简单再生码在增加少量存储开销的基础上,有效减少了修复开销。 2)针对存储系统中的文件加入生命周期和访问频率特征对文件访问性能的影响问题,结合文件状态和系统状态,提出了基于文件动态属性的自适应编码机制。论文设计并实现了基于简单再生码的自适应编码模型。实验结果表明,基于文件动态属性的自适应编码机制可有效提高分布式存储系统的整体存储效率,并降低修复代价。