论文部分内容阅读
随着信息技术的不断向前发展,以及IT技术与传统行业互相碰撞与融合,促使当今的数据量出现爆发式增长,使得数据存储规模远远超过物理存储硬件的发展,给存储服务中心带来了巨大的压力。根据存储数据研究表明,海量的存储数据中存在很大比率的重复数据。由于重复数据删除技术能够通过比对指纹进行查重,使得存储容量缩减到原有的几十分之一,物理存储设备的利用率和存储系统的数据存储效率获得极大的提升,这对于当前严重的数据存储瓶颈来说,是一种非常有效的解决办法。但是海量的存储数据使得其相应生成的指纹索引也同样庞大,如果存储系统通过全索引方法进行去重,其所花费的代价远远高于去重带来的优势,从而影响存储系统的服务性能。因此指纹数据的快速索引成为影响重复数据删除技术运用与发展的关键因素。本文以构建适用于集群环境的重复数据删除技术为主要应用目标,通过详细研究和分析目前重复数据删除的关键技术,针对重复数据删除引发系统索引性能瓶颈的现状,提出一种基于文件相似度的抽样重删索引算法(Sampling De-duplication Based on Similarity,SDBS)。SDBS算法着眼于云存储环境,从提高系统整体性能的目标出发,在充分保证一定重删率的基础上,通过基于文件级别的抽样来减少抽样范围,从而降低指纹索引查找比对的范围和次数。针对基于抽样机制的重复数据删除可能降低系统的重删率以及主节点负载过重的问题,SDBS算法在达到相应文件相似度的阈值时,通过深度重删来维持系统较好的重删率,同时将深度数据查重的任务分配给集群各存储节点以确保系统具有较高的吞吐能力。最后本文基于SDBS索引算法,设计和实现了一个基于HDFS集群存储环境的HDFS_SDBS原型系统,并且给出了详细的用例、模块和算法流程设计和实现细节。实验结果表明:SDBS算法通过基于文件级别的抽样方法,能加快识别重复数据的速率,提升系统整体的吞吐量。另外,SDBS算法通过深度重删,将指纹分布到多个节点并行处理,能够有效解决索引瓶颈对云存储环境下重复数据删除的影响,使系统获得较高的数据存储效率。