论文部分内容阅读
随着信息化时代的到来以及互联网技术的发展,全球数据呈爆炸性增长。分布式存储系统因其高可扩展性与廉价性的优点被广泛应用,并渐渐取代了传统的集中式存储。然而,分布式存储系统中的存储设备虽然价格低廉但不稳定性强,不可避免地会发生故障,需要频繁进行快速修复,这时就要求通过存储冗余数据来保证数据的可靠性与可用性。目前采用最多的冗余存储方式是复制和纠删码策略。复制策略需要存储原始文件副本,存储开销较大;纠删码在存储开销性能达到较优的同时修复故障节点的带宽开销却过大。因此,不同的环境要求下采用何种编码方式以及如何快速修复故障节点成为我们需要研究的重要问题。本文的主要研究内容如下:(1)为了提高分布式存储系统的可靠性和修复效率,论文构造了一类基于循环可变部分重复(Variable Fractional Repetition,VFR)码的最小带宽再生码,能够快速精确修复故障节点。具体地,考虑到用户访问数据的不均衡性,根据数据热度不同重复度不同的思想构造循环VFR码,并在此基础上为提高文件下载速度对循环VFR码进行分组设计,得到对应的最小带宽再生码。采用基于循环VFR码的最小带宽再生码,单节点故障的修复局部性恒为2,改善了传统MBR码修复局部性过大的缺陷;与现有的RS码和简单再生码相比具有更低的修复局部性、修复复杂度与修复带宽开销,且修复效率高,同时在一定程度上扩大了传统FR码的适用范围。(2)为保证节点负载均衡,提出一类基于旋转交织码的层次码(Rotating Interleaving Hierarchical Codes,RIHC),能够快速实现故障节点修复。首先构造旋转交织码,使得修复单故障节点过程中利用节点并行I/O性质,且每个参与节点传输的数据量相同,即节点负载均衡,并将其作为基础组按照层次码的构造方法进行旋转扩展得到基于旋转交织码的层次码。性能分析和仿真实验表明,与现有的层次码和RS码相比,基于旋转交织码的层次码具有更小的修复局部性与修复带宽开销,且修复数据时仅采用简单的异或运算,降低了修复复杂度。