论文部分内容阅读
随着信息技术和计算机网络的飞速发展,数据信息的传输量和存储量也在日益增大。为了缓解数据存储的压力,人们采用虚拟磁带库技术以磁盘虚拟磁带的方式来代替物理磁带库。但是,面对每天产生的海量数据,虚拟磁带库也面临着巨大的压力和挑战。为更有效的利用磁盘空间,本文提出了一种消除虚拟磁带库中冗余数据的重复删除算法的应用研究方案。 本文首先针对虚拟磁带库和重复数据删除算法的国内外研究现状做了详细的分析,并经研究和论证得出了一种适合虚拟磁带库的重复删除算法应用方案,即采用基于散列识别方法的数据块级后处理式消冗方案。本文也针对应用方案中使用到的主要算法如数据分块、哈希计算、bloom filter算法等进行了深入的理论研究和分析,并介绍了各自实现过程及关键参数选取等内容。 接着针对应用方案作了详细分析和设计,从功能结构、文件组织结构和功能流程各方面进行详细设计。然后分别从初始化、数据分块、数据查询和数据存储及管理等方面分模块介绍实现过程。其中在数据分块中实现了固定长度分块、不定长滑动窗口分块和定长滑动窗口分块三种方案以适应不同的场合和需求,在数据查询模块中实现了Bloom filter查询、中间模块查询和磁盘哈希表三层查询机制,极大的提高了数据查询及数据存储的效率。 最后分别从处理的文件类型差异、分块方案选择差异和固定分块长度差异三方面进行了详细的测试和研究,其结果与理论分析完全一致,取得了良好的效果。