论文部分内容阅读
随着互联网时代的到来,数据量呈现出快速爆炸式增长的趋势,海量的数据作为一种重要资产需要被安全可靠地存储。因此,如何保证大规模数据安全可靠存储成为了学术界和工业界的研究热点。分布式存储系统因其具有硬件廉价、高可用、易扩展等优势已经被工业界广泛应用。目前,大多数分布式存储系统主要采用多副本备份和纠删码两种可靠性策略。多副本备份机制虽然实现简单,但存储开销较大,容错能力较差。纠删码方法存储开销较低,可靠性高,但使用时会存在一定量的计算开销,并且会带来节点失效时修复带宽过大的问题。基于网络编码理论设计的再生码能显著地降低节点修复带宽,但现有的大多数再生码的运算过程往往需要较大规模的有限域GF(q),导致实际使用时计算开销大,从而难以适用于实际使用的存储系统的性能需求。 针对上述再生码的问题,本文将Rashmi等提出的通用的乘积矩阵(ProductMatrix,PM)框架和陈等提出的稀疏随机矩阵编码方法相结合提出了一种新的再生码中最小带宽再生码(Minimum Bandwidth Regenerating,MBR)码和最小存储再生码(Minimum Storage Regenerating,MSR)码的构造方案:SR-MBR和SR-MSR,其整个编码和译码过程完全基于GF(2)上的异或运算,与GF(q)上的运算相比效率更高。此外,本文在开源分布式文件系统MooseFS的基础上,设计与实现了基于再生码可靠性方案的RMooseFS文件系统,详细描述了其组成架构和读写过程,并将其部署在局域网集群中进行不同编码的性能对比实验。实验结果表明,基于稀疏随机矩阵的再生码相比基于范德蒙矩阵的再生码编码速率提升了50%,单节点失效恢复速率提升了1倍。针对RMooseFS文件系统的退化读时间指标,基于稀疏随机矩阵的再生码相比RS码至少降低了30%,相比范德蒙矩阵再生码至少降低了45%。