面向分布式的重复数据删除技术研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:hehan1127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及物联网的迅速发展,越来越多的数据被存储在云存储系统中。然而,在对这些数据进行存储过程中,往往伴随着大量的冗余数据,这样不仅占用了大量的存储空间,而且降低了云存储系统的存储效率。针对这些问题,重复数据删除技术给出了很好的解决方法。它可以有效地对存储系统进行优化,并且提高数据在网络传输中的效率。本文对重复数据删除系统的几个关键技术进行了分析和研究,并对影响重复数据删除技术的关键部分进行了相关的改进和优化。本文的主要创新包括以下几项内容:(1)针对传统的重复数据删除系统中出现的分块效率低下的问题,提出了一种非对称最大值的去重分块方法(DAM)。DAM算法利用固定大小的窗口和可变大小的窗口来查找作为分割点的最大值字节,算法首先在固定窗口中寻找最大字节值,如果紧接固定窗口的字节比固定窗口所有值都要大,则该值便作为最大值字节,同时切点也被确定。否则,算法继续移动到下个字节到找到最大值为止。(2)针对传统的数据块指纹算法出现的哈希冲突问题,采用SHA-3标准的Keccak算法作为重复数据分块中数据块的指纹生成方案和指纹匹配,以此取代了传统的SHA-2算法来计算数据块的指纹值。(3)针对传统重复数据删除系统去重效率低下的问题,将改进的内容分块算法-基于非对称最大值的分块算法和基于Keccak的数据块指纹生成算法应用在分布式平台上,设计并搭建了基于Hadoop的重复数据删除系统,并对系统进行了性能优化。
其他文献
本文以第51届世乒赛上波尔对陈玘的比赛为基础,通过文献资料法、录像观察法、数理统计法,对波尔在比赛中发球抢攻段、接发球抢攻段和相持段技战术特点做了系统的分析,找出其优势
结合一工程实例,从方案选择,沉管灌注桩支护结构的设计计算、土方开挖、地下水等方面阐述深基坑施工中在确保基坑及周围建筑物与构筑物安全的前提下如何结合工程实际条件,尽
通过观看电视实况转播,浏览2012年澳大利亚网球公开赛官方网站,查阅相关文献资料,采用理论比较法、逻辑分析法,以费德勒、纳达尔在比赛中的技战术统计数据作为参考,结合作者长期从
光阴荏苒,转眼间《西安财经学院学报》创刊已整30周年。作为学术顾问、一个从事学术期刊工作40余年的老编辑,一个目睹了该刊创办,发展过程的省及全国学报研究会的负责人,看到
人口老龄化、高龄化程度在我国逐渐加重,引起了社会各界的广泛关注。在我国'未富先老'的国情和'以居家为基础、社区为依托、机构为支撑'的基本养老政策基础
追求幸福是人类的终极目标。运用CGSS2013数据,文章探讨了基本公共服务的供给与居民主观幸福感的关系。研究发现,基本公共服务供给的四个维度中,均衡性和公共性两个维度的评
目的为地方特色餐饮跨区域发展提供文化策略与参考。方法从文化视角认知地方特色餐饮跨区域发展中文化认同的重要性,通过现状、问题及趋势的分析,针对地方特色餐饮跨区域发展
中职教育是以就业为导向的教育,对受教育者进行思想政治教育和职业道德教育,传授职业知识,培养职业技能,进行职业指导,从而全面提升受教育者的素质。对中职舞蹈教育教学来说,教师要
城镇化是国家现代化的重要标志,是消除城乡差距的根本途径,也是扩大内需,促进国民经济可持续发展的重要引擎。区域经济梯度发展的不均衡性为经济欠发达地区的城镇化和未来经济发
以东营市道路和经济发展为例,采用相关系数分析模型和回归分析模型,取道路建设状况为自变量X,取经济增长为因变量Y,从而求出它们的相关性,然后建立道路建设与经济增长之间的