论文部分内容阅读
网络容灾与网络可生存性是网络安全的基本问题,也是下一代网络不可回避的关键问题。网络上最重要最宝贵的资源是数据和信息,其次才是硬件设备及其驱动软件。因此网络上承载的数据信息的安全性是网络系统可生存性的首要任务。随着网络规模的扩大,在网络上分布式存储及服务的数据随时可能发生某些损毁,一旦发生大面积数据服务器损毁,就可能造成巨大的损失。因此如何在突发情况下将数据灾难造成的损失降到最低限度,如何更为有效的保护重要数据,成为构造高可用性和高容错性的分布式存储系统需要解决的首要问题。
在分布式存储系统中,为了获得较高的数据存取率且保证可靠性,通常采用冗余容错的方法,其中最基本的两种容错方法是完全数据复制和磁盘阵列技术,完全复制就是将文件的多个副本分布到系统中不同节点,实现冗余容错。完全复制虽然具有读写效率高,容错性能较好的优点,但是随着分布式存储系统规模的不断扩大,完全复制会带来相当高的带宽和存储代价。磁盘阵列技术就是将多个小型廉价的磁盘驱动器组合成阵列形式以达到单个大型磁盘驱动器所无法达到的数据安全性和冗余性。磁盘阵列技术虽然在一定程度上增强了分布式存储系统的可靠性,但是纠错能力不强,一般的RAID系统使用奇偶校验码技术来保证数据的可靠性,因此只能容许一到两个磁盘出现故障,无法满足分布式存储系统的需要。
由于完全复制和磁盘阵列技术不能有效适用于分布式存储系统,基于纠删码技术的冗余容错方法被研究人员提出从而为构造高可用性和高容错性的分布式存储。阵列纠删码是一类编译码过程只需要简单异或运算的纠删码。与其他的纠删码技术相比,阵列纠删码有着编、译码复杂度低,软、硬件实现简单等优点,因此得到了广泛的研究和应用。最早被使用的阵列纠删码技术是最简单N+1奇偶校验码,它应用在存储系统中,使得系统能够容许单个磁盘故障。但是随着存储系统中磁盘数量的增加,同时发生多个磁盘故障的概率上升,存储系统的可靠性迅速降低,仅容许单个磁盘故障的奇偶校验码远远不能满足系统的要求,于是一系列容许多个磁盘故障的阵列纠删码如EVENODD码、X码、STAR码等相继被提出,它们极大的提高了存储系统的安全性,但是仍然存在着容错能力较低,参数选取不够灵活等种种缺陷。
随着纠删码技术研究的不断深入,如何设计纠删能力好、编译码速度快、算法简单且易于软硬件实现的纠删码成为一个重要课题。本文背景属于国家863课题“低冗余度数据容灾新技术”,在深入研究目前主流阵列纠删码技术的基础上,做了大量的理论推导和软硬件工程工作,实现了一个迥于目前主流技术的、基于阵列纠删码的新型网络分布式存储系统。
本文主要贡献有:
1.提出了基于阵列纠删码的新型分布式存储系统架构和技术路线。
2.实现了一个基于阵列纠删码的新型网络分布式存储系统,该系统由N台数据服务器组成了一个网络分布式数据存储与服务系统,当其中任意r台数据服务器遭到损毁时,可以利用其余N-r台未受损的数据服务器立刻自动恢复损毁的全部数据信息,并且限制每台服务器存储的数据信息冗余度不超过r/N,(r/N<1)。
3.我们实现的系统所使用的技术和现行主流技术的重要区别在于:该技术可容忍备用服务器数据遭受损毁,从而大大提高了网络柔性生存能力;没有采用数据备份策略,不需要时时作拷贝,从而节省了网络设备资源和存储空间。当大面积数据服务器灾难发生时,该技术可以在较短时间内完成数据恢复与服务接管,其方法上的实质是用最小的冗余代价达到网络灾难数据及服务的自动完整再生的高效率,其技术性能指标可以根据实际需要设计为刚性的和可以调整的。
4.相比传统上单纯备份的技术,以及其他编码技术如已知阵列码纠删能力不足,只能用于磁盘RAID;RS码等复杂度太高,用于大规模存储效率太低,基本不可接受;喷泉码也是概率性质的,而且需要成千上万的存储节点,缺乏实用价值。和它们相比,我们所采用的基于编码的网络分布式存储明显有更大的优越性,属于当今技术前沿,必将是今后数据容灾技术的发展趋势,并且还可以应用于云存储系统等其他分布式存储系统,具有强大的生命力。
虽然我们采用的编码技术目前还缺乏严格的数学证明和理论推导,但是这也是新的编码技术的正常发展途径,许多新的编码技术的定型工作时间从几年到十几年,如果成熟并且得到应用后就会产生巨大的社会效益和经济效益。
5.在已经实现的网络分布式存储系统的基础上,提出了下一步改进的目标,准备在适当时机将该系统实用化,使之应用于银行、交通部门等对数据保护要求迫切的重要部门中去。