论文部分内容阅读
随着现代信息化技术的深入发展,数字信息呈爆炸式增长,给数据备份系统带来了巨大挑战。数据去重作为一种数据缩减技术,能够有效地删除数据流中的重复数据、提高存储利用率和节省网络带宽,被广泛应用于数据备份系统中。但是,基于数据去重的数据备份系统在高性能提升方面仍存在很多问题。 一方面,大幅度提升数据备份系统的备份吞吐率至关重要,但现有的数据去重方法都是通过加快指纹索引这一局部方法来提高备份吞吐率,并没有从数据去重的全局过程考虑,故对备份性能的提升存在局限性,针对此问题提出一种流水并行化数据去重方法,将数据去重过程划分为合理的流水段,使多个阶段并行运作,大幅度提高了数据备份吞吐率且不会影响数据去重率。另一方面,数据恢复是备份的最终目的,提升恢复性能具有重大意义。然而,在备份系统中使用数据去重技术使得文件分散地存储,导致后续版本的恢复性能降低,而现有算法是通过碎片重写来换取恢复性能,牺牲了过多的数据去重率,针对此问题提出了一种基于缓存感知的碎片重写方法,在数据备份过程中预先模拟恢复缓存的行为来避免在缓存中能够命中的数据碎片的重写,从而提高了后续版本的数据恢复性能,同时大大降低了对数据去重率的影响。 实验结果表明,流水并行化数据去重方法从整体上提高了备份系统的备份性能,使备份系统具有更高的备份吞吐率;基于缓存感知的碎片重写方法与现有算法相比,不仅提高了数据恢复性能,而且提高了数据去重率。