论文部分内容阅读
研究发现,存储系统中有高达60%的数据是重复的,大量重复数据的存在不仅浪费了存储空间,而且给数据的处理速度和计算的准确性带来很大挑战。近年来,重复数据删除技术逐渐成为研究热点。在重复数据删除系统中,数据块对所有的文件都是共享的,如果某个数据块发生错误或丢失,会造成多个文件无法还原。有些研究者提出将纠删码技术引入重复数据删除系统中,因纠删码编码时会产生多个额外的校验块,使编码后数据块的存储容量大于原始的单个数据块。针对此问题,本文在纠删码技术的基础上将数据压缩技术引入重复数据删除系统中,最后通过实验发现,基于数据压缩与纠删码技术的重复数据删除系统不仅提高了系统的可靠性,同时减少了存储空间的浪费。本文完成的主要工作有: (1)研究并实现了重复数据删除系统保存文件和还原文件的流程。本文首先编码实现了重复数据删除系统的整体架构,文件切分采用固定切分算法,指纹库查找采用HASH查找算法。通过实验初步验证重复数据删除系统可以大大减少存储系统中的重复数据。 (2)研究并实现了基于纠删码技术的重复数据删除系统的整体架构。为了提高重复数据删除系统的可靠性,一些研究者提出采用冗余备份技术,但冗余备份技术对存储空间是一种极大的浪费。本文在参考大量资料的基础上将纠删码技术引入重复数据删除系统中,实现了基于Reed-Solomon纠删码技术的重复数据删除系统保存文件和还原文件的流程。由于在进行纠删码编码时为了数据块重构会额外编码出多个校验数据块,相对于原始数据块来说造成了一定存储空间的浪费,在此基础上本文完成了第二项工作。 (3)将数据压缩技术引入到基于纠删码技术的重复数据删除系统中。本文在参考现有的几种无损数据压缩技术的基础上,将Huffman压缩技术引入基于纠删码技术的重复数据删除系统中,实现了基于Huffman数据压缩和纠删码技术的重复数据删除系统保存文件和还原文件的流程。保存文件时,纠删码编码完成后对编码的数据块进行Huffman压缩,将压缩后的数据块保存到不同的存储节点,还原文件时,先将压缩后的数据块解压缩为纠删码编码数据块,进而还原出原始文件。 (4)最后,本文利用一套实际运营的管理信息系统中数据库的数据文件、日志文件和备份文件进行文件保存和还原实验,通过实验数据发现,基于数据压缩与纠删码技术的重复数据删除系统不仅提高了数据的可靠性而且减少了存储空间的浪费。