论文部分内容阅读
当前,随着对数据存储容量的需求的不断增加,存储系统的规模也随之不断扩大。云存储技术成为工业界和学术界的热点。在云存储系统中,虽然单个存储设备的故障率很低,但是随着云存储系统总磁盘数量的增加,系统整体的故障率会非常高。因此,在提供持续有效的数据访问服务的同时,如何提高云存储系统的可靠性和可用性就成为一个亟待解决的问题。 本文基于马尔可夫(Markov)过程,针对MDS(Maximum Distance Separable)编码和非MDS编码,给出了面向传统被动容错和新型主动容错两类云存储系统的可靠性评价模型。这一模型能够定量评价硬盘故障预测模型对采用不同冗余机制的大型数据中心所带来的可靠性提升。 在MDS编码可靠性定量分析的研究方法方面,本文重点研究了带故障预警的RAID5(单容错)和RAID6(双容错)系统的可靠性模型。引入故障预警和预警处理的描述,定量分析可靠性的变化。 本文还针对大型数据中心普遍采用的双副本和三副本冗余机制以及故障预警及处理机制提出了可靠性分析模型。通过组合分析计算多故障导致数据丢失的概率;提出了故障状态迁移基本单元,可表示这类系统中故障状态变化的一般规律。从而为构造这类系统的复杂可靠性模型提供了一种一般性的方法。 本文最后分别对MDS和非MDS云存储系统进行了详尽的对比实验。实验结果证明:基于硬盘故障预测模型的主动容错机制可大幅度提高云存储系统的可靠性。另一方面,引入主动容错机制可以令我们以低容错冗余机制达到原来高容错冗余机制才能达到的可靠性,从而大幅度降低系统构建和维护成本。