论文部分内容阅读
云存储作为从云计算领域延伸和发展出来的技术,为企业和用户提供了极大的存储空间和按需定制的计算资源。通过将数据迁移到云存储服务器上,用户没必要考虑底层硬件管理的复杂性,与此同时,用户数据的安全性成为服务质量的重要方面。高可靠性的数据冗余策略能够更好地满足用户的需求,提高系统的访问效率。
由于云存储数据节点的分散性及网络的不稳定性,GFS和开源HDFS的数据冗余策略都将文件分割为64MB数据块进行备份存储,该策略不能使文件存储成功的概率达到最优。完整副本冗余策略是将分割后的数据对象创建多个相同的副本,然而,副本数量的增加会给系统带来带宽、性能和存储空间等方面的开销,并且该策略不能解决系统中多节点同时失效的问题,近期亚马逊存储服务的崩溃就是一个典型的案例。因此有必要设计新的数据分割及冗余策略来提高云存储环境下的数据可靠性。
要提高系统的资源利用率,增强系统抗节点失效的能力,关键需要解决数据块冗余策略问题。针对云存储环境下数据节点的失效问题,通过建立云存储文件分割的最优化模型,使文件存储成功的概率达到最优。该模型对不同大小的文件设置不同的分块数,并给出了文件最优分块数NBest的计算方法。将纠删码冗余技术应用于该模型提高数据节点的容错能力;为避免单服务器节点失效给系统带来影响,提出了基于分散式服务器的RS码算法;选择合适的服务器对数据块完成编码和解码,提高了系统的吞吐量,并设计提出了基于纠删码的云存储数据可靠性系统架构。
在P2P网络仿真工具Peersim1.0.5上对提出的模型和数据冗余策略进行了仿真。分别从冗余度对系统可靠性的影响、相同冗余度下文件分块数量对系统可靠性的影响以及存储空间利用率等方面进行了仿真评估。实验结果表明,通过与数据复制冗余策略进行比较,当系统冗余度较小时,纠删码冗余可以获得较高的数据可靠性和资源利用率。因此纠删码冗余策略在节约存储空间的情况下,解决了系统中多节点同时失效的问题,更加适应开放复杂的分布式存储和云存储环境。