论文部分内容阅读
随着互联网及物联网的迅速发展,越来越多的数据被存储在云存储系统中。然而,在对这些数据进行存储过程中,往往伴随着大量的冗余数据,这样不仅占用了大量的存储空间,而且降低了云存储系统的存储效率。针对这些问题,重复数据删除技术给出了很好的解决方法。它可以有效地对存储系统进行优化,并且提高数据在网络传输中的效率。本文对重复数据删除系统的几个关键技术进行了分析和研究,并对影响重复数据删除技术的关键部分进行了相关的改进和优化。本文的主要创新包括以下几项内容:(1)针对传统的重复数据删除系统中出现的分块效率低下的问题,提出了一种非对称最大值的去重分块方法(DAM)。DAM算法利用固定大小的窗口和可变大小的窗口来查找作为分割点的最大值字节,算法首先在固定窗口中寻找最大字节值,如果紧接固定窗口的字节比固定窗口所有值都要大,则该值便作为最大值字节,同时切点也被确定。否则,算法继续移动到下个字节到找到最大值为止。(2)针对传统的数据块指纹算法出现的哈希冲突问题,采用SHA-3标准的Keccak算法作为重复数据分块中数据块的指纹生成方案和指纹匹配,以此取代了传统的SHA-2算法来计算数据块的指纹值。(3)针对传统重复数据删除系统去重效率低下的问题,将改进的内容分块算法-基于非对称最大值的分块算法和基于Keccak的数据块指纹生成算法应用在分布式平台上,设计并搭建了基于Hadoop的重复数据删除系统,并对系统进行了性能优化。