面向分布式的重复数据删除技术研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:hehan1127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及物联网的迅速发展,越来越多的数据被存储在云存储系统中。然而,在对这些数据进行存储过程中,往往伴随着大量的冗余数据,这样不仅占用了大量的存储空间,而且降低了云存储系统的存储效率。针对这些问题,重复数据删除技术给出了很好的解决方法。它可以有效地对存储系统进行优化,并且提高数据在网络传输中的效率。本文对重复数据删除系统的几个关键技术进行了分析和研究,并对影响重复数据删除技术的关键部分进行了相关的改进和优化。本文的主要创新包括以下几项内容:(1)针对传统的重复数据删除系统中出现的分块效率低下的问题,提出了一种非对称最大值的去重分块方法(DAM)。DAM算法利用固定大小的窗口和可变大小的窗口来查找作为分割点的最大值字节,算法首先在固定窗口中寻找最大字节值,如果紧接固定窗口的字节比固定窗口所有值都要大,则该值便作为最大值字节,同时切点也被确定。否则,算法继续移动到下个字节到找到最大值为止。(2)针对传统的数据块指纹算法出现的哈希冲突问题,采用SHA-3标准的Keccak算法作为重复数据分块中数据块的指纹生成方案和指纹匹配,以此取代了传统的SHA-2算法来计算数据块的指纹值。(3)针对传统重复数据删除系统去重效率低下的问题,将改进的内容分块算法-基于非对称最大值的分块算法和基于Keccak的数据块指纹生成算法应用在分布式平台上,设计并搭建了基于Hadoop的重复数据删除系统,并对系统进行了性能优化。
其他文献
通过观看电视实况转播,浏览2012年澳大利亚网球公开赛官方网站,查阅相关文献资料,采用理论比较法、逻辑分析法,以费德勒、纳达尔在比赛中的技战术统计数据作为参考,结合作者长期从
追求幸福是人类的终极目标。运用CGSS2013数据,文章探讨了基本公共服务的供给与居民主观幸福感的关系。研究发现,基本公共服务供给的四个维度中,均衡性和公共性两个维度的评
目的为地方特色餐饮跨区域发展提供文化策略与参考。方法从文化视角认知地方特色餐饮跨区域发展中文化认同的重要性,通过现状、问题及趋势的分析,针对地方特色餐饮跨区域发展
中职教育是以就业为导向的教育,对受教育者进行思想政治教育和职业道德教育,传授职业知识,培养职业技能,进行职业指导,从而全面提升受教育者的素质。对中职舞蹈教育教学来说,教师要
城镇化是国家现代化的重要标志,是消除城乡差距的根本途径,也是扩大内需,促进国民经济可持续发展的重要引擎。区域经济梯度发展的不均衡性为经济欠发达地区的城镇化和未来经济发
以东营市道路和经济发展为例,采用相关系数分析模型和回归分析模型,取道路建设状况为自变量X,取经济增长为因变量Y,从而求出它们的相关性,然后建立道路建设与经济增长之间的