论文部分内容阅读
随着计算机技术的飞速发展,带来的是数字信息量的爆炸式增长,尤其是在云存储系统中,其数据量甚至达到PB级的规模。面对如此庞大的数据量,研究如何有效地发现和消除系统中的重复数据变得尤为重要。数据分块算法能够快速高效地检测出文件之间的重复数据,是相同数据检测技术的核心。针对现有的数据分块算法分块边界不确定导致数据分块过大和容易产生数据碎片的缺点,立足于消除系统中的硬分块,平衡提高分块算法的消重率和降低分块算法的时间消耗之间的矛盾,论文提出了基于预分块的滑动窗口分块算法SWCDC。SWCDC对文件内容没有发生变化的区域采用较大的分块预期值进行分块,而对文件内容发生变化的区域采用较小的分块预期值进行分块。通过区分对待数据变动区域和非变动区域,SWCDC特别适用于对重复数据较多的系统进行重复数据管理。另外,在SWCDC的基础上,为了降低数据分块的元数据开销,提出了基于合并的滑动窗口分块算法ISWFDC。实验结果表明,SWCDC和ISWFDC算法可以比传统的分块算法获得更高的消重性能。针对现有的布隆过滤器在数据块指纹集较大时查询速度较慢,不能很好地适应云存储环境下数据块指纹集的动态增长这一问题,论文提出了动态布隆过滤器矩阵集合DBFMS。DBFMS通过将数据块指纹集表示为s个t?m的位矩阵,而不是s?t个m位的布隆过滤器位串,使检索重复数据块指纹的效率得到了显著的提升。理论分析、仿真测试和实验表明,DBFMS相对于传统的静态布隆过滤器以及动态布隆过滤器而言,其在可扩展性、查询效率和假阳性概率方面都取得了较好的改进效果。最后,本文结合重复数据管理相关理论及其系统结构模型,融入提出的改进算法,并采用开源的FastDFS分布式文件系统,通过配置FastDFS分布式文件系统集群实现了基于FastDFS的重复数据管理平台,完成了文件的上传、下载、删除、重命名以及重复数据管理等功能。对比应用改进算法前后系统的测试结果表明,改进后的重复数据管理系统的消重性能更好,效率更高,更加适用于云存储环境。