论文部分内容阅读
随着信息化的发展,数据已经成为企业赖以生存和发展的根本。近年来,企业数据量呈现出爆炸式增长的趋势,许多行业的数据量已经从GB、TB发展到PB甚至EB级别,这在银行和电子商务类型的企业中表现尤为明显,对于这些企业,数据已经等同于财富。为了防止因数据丢失而导致的业务瘫痪,越来越多的企业开始建立自己的灾难备份系统。然而如此巨大的数据量如果靠简单的数据复制方式进行全部备份,则会对存储空间和网络资源造成严重的负担。为了在资源利用最优化的前提下建立企业灾备系统,重复数据消除这一概念应运而生。重复数据消除的关键在于消冗算法的高效,高效的消冗算法可以达到较高的压缩比。目前主流的重复数据消除算法有整文件消冗、固定分块大小消冗、基于内容的分块消冗。消冗粒度越小,效果越好,但是内存及磁盘管理消耗也越大。本文着重研究基于内容的消冗算法,并在此基础上提出了两个改进算法MBasedSWC和MBasedSWC-Varsize,以及与之结合的消冗存储模型FSBSM。新提出的改进算法根据实际应用中文件版本间重复数据大多连续出现的情况,采用了预分块与子分块合并策略,旨在保证算法良好压缩率的前提下,解决基于内容的分块算法块大小波动较大的问题。该算法同时也避免了同类算法使用内存磁盘消耗换取压缩率的情况,达到了平衡算法各项性能的目的。而与之结合的FSBSM消冗存储模型,通过文件相似度判断、双层存储结构以及节点选择策略,使得重复数据消除技术能够在网络集群环境中发挥最大的价值。最后本文结合上述理论研究,设计并实现了一个可用于灾备中的存储子系统原型。该系统使用真实数据对实现后的改进算法进行测试,并与第三章仿真结果作对比,最终用它实现了原型系统中文件的备份恢复功能。实验结果表明,MBasedSWC-Varsize算法自身性能及其应用下的FSBSM模型,均在灾备存储子系统原型中得到了成功应用,达到了预期效果。