论文部分内容阅读
近年来,随着信息技术的飞速发展及多媒体应用的广泛普及,信息资源呈爆炸式增长。如何对数据信息进行安全高效存储,成为学术界和工业界的研究热点。分布式存储系统利用网络连接将数据进行分散存储,实现海量数据存储并具备容灾能力,有效克服了集中式存储系统的弊端。
相比于集中式存储,分布式存储系统提升了数据存储容量及数据并行操作能力。然而,在带来性能提升的同时,由于大量存储设备的存在,节点故障变得更为普遍。工业界已将节点故障作为日常事务而非异常进行处理。如何在发生节点故障时,快速高效恢复数据以保证系统的可靠性成为研究热点。
本文将主要研究分布式存储系统中校验盘故障的快速修复问题。提高故障节点的恢复速度,可以从提高再生数据的生成效率及提高再生数据在网络中的传输效率两方面入手。据此,本文的工作内容主要为以下两个方向:
1)高效的数据再生算法。本文在选择基于纠删码的编码算法时,选择仅需异或(XOR)操作便能实现的编码方案,实现数据的快速高效生成。本文主要研究基于RAID6理论体系的编码算法:RDP编码和EVENODD编码。RAID6技术实现了较低冗余较高容错能力、高效的随机数据存取、数据的并行处理及消除对校验盘的访问瓶颈。RAID6技术的良好特性对整个系统性能的提升具有重要意义。
2)缩短再生数据在网络中的传输时间。在网络链路状况不可改变的情况下,只有通过减少数据传输数量来节省修复时间,即减小修复带宽。网络编码思想改变传统网络节点仅进行数据存储转发的现状,充分利用网络节点的计算编码能力,中间节点参与编码和解码,提高单位数据的信息量,提高整个网络的吞吐量。将网络编码思想应用到故障修复领域中,可以减少修复带宽,提高修复效率。
同时,由于单节点故障的概率远大于多个节点同时发生故障的概率,本文主要研究单节点故障的快速修复问题。传统的单节点故障修复算法仅针对原始数据盘故障进行修复;对于校验盘修复则需要下载所有原始数据,修复效率较低。
本文针对RDP编码和EVENODD编码,分别提出对应的校验盘快速修复算法。通过对RDP和EVENODD码编码算法的研究,充分利用行校验盘的数据特性,结合网络编码思想,实现对角线校验盘的快速高效修复。理论研究表明,相比于传统修复算法,该算法可显著减少校验盘故障修复过程中耗费的带宽资源,从而提高修复效率。