论文部分内容阅读
随着数据海量化时代的到来,分布式存储技术以其高扩展性和廉价性逐渐成为解决海量数据存储的重要手段。由于分布式存储系统规模庞大、磁盘故障以及其它网络固件发生异常而导致的节点失效问题已经成为一种普遍情况。为了确保数据的可用性,通常需要在节点存储一部分冗余数据,且为了保持分布式存储系统高可靠性,需要对失效存储节点及时修复。分布式存储系统通常采用纠删码来提高系统的可靠性,与复制策略相比,纠删码可以使分布式存储系统的存储开销达到最优,但是在修复单个失效节点时必须以还原整个原文件为代价。再生码在保证系统具有较低存储开销的同时,可以更好地降低修复失效节点所带来的带宽开销,具有重要的应用前景。与此同时,如何降低修复失效节点所带来的磁盘读取开销,也具有十分重要的意义。为了进一步降低分布式存储系统修复单个失效节点所需的带宽开销和磁盘读取开销,本文主要研究以下内容:(1)研究了简单再生码,并在此基础上对简单再生码进行了改进,提出基于简单再生码的分段编码方案。通过将简单再生码中的f个具有相同下标的编码块分成两段,将每段中的编码块进行异或操作生成一个新的校验块。与简单再生码相比,分段编码方案在增加了少量存储开销的基础上,可以在很大程度上降低修复单个失效节点所带来的带宽开销和磁盘读取开销。(2)提出局部最小存储再生码。在基于最小存储再生码的逐步构造编码块算法的基础上,通过将分布式存储系统中的节点进行分组,然后将子文件分别在各分组中构造一个规模较小的最小存储再生码,对失效节点则在修复组内利用逐步构造编码块算法进行局部修复,进一步给出了局部最小存储再生码在不同情况下的分组方案。与基于最小存储再生码的逐步构造编码块算法相比,相同规模的局部最小存储再生码同样可以达到存储开销下限,并且可以有效降低修复单个失效节点所需的带宽开销和磁盘读取开销。