面向云存储的重复数据删除技术研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:szjlq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断向前发展,以及IT技术与传统行业互相碰撞与融合,促使当今的数据量出现爆发式增长,使得数据存储规模远远超过物理存储硬件的发展,给存储服务中心带来了巨大的压力。根据存储数据研究表明,海量的存储数据中存在很大比率的重复数据。由于重复数据删除技术能够通过比对指纹进行查重,使得存储容量缩减到原有的几十分之一,物理存储设备的利用率和存储系统的数据存储效率获得极大的提升,这对于当前严重的数据存储瓶颈来说,是一种非常有效的解决办法。但是海量的存储数据使得其相应生成的指纹索引也同样庞大,如果存储系统通过全索引方法进行去重,其所花费的代价远远高于去重带来的优势,从而影响存储系统的服务性能。因此指纹数据的快速索引成为影响重复数据删除技术运用与发展的关键因素。本文以构建适用于集群环境的重复数据删除技术为主要应用目标,通过详细研究和分析目前重复数据删除的关键技术,针对重复数据删除引发系统索引性能瓶颈的现状,提出一种基于文件相似度的抽样重删索引算法(Sampling De-duplication Based on Similarity,SDBS)。SDBS算法着眼于云存储环境,从提高系统整体性能的目标出发,在充分保证一定重删率的基础上,通过基于文件级别的抽样来减少抽样范围,从而降低指纹索引查找比对的范围和次数。针对基于抽样机制的重复数据删除可能降低系统的重删率以及主节点负载过重的问题,SDBS算法在达到相应文件相似度的阈值时,通过深度重删来维持系统较好的重删率,同时将深度数据查重的任务分配给集群各存储节点以确保系统具有较高的吞吐能力。最后本文基于SDBS索引算法,设计和实现了一个基于HDFS集群存储环境的HDFS_SDBS原型系统,并且给出了详细的用例、模块和算法流程设计和实现细节。实验结果表明:SDBS算法通过基于文件级别的抽样方法,能加快识别重复数据的速率,提升系统整体的吞吐量。另外,SDBS算法通过深度重删,将指纹分布到多个节点并行处理,能够有效解决索引瓶颈对云存储环境下重复数据删除的影响,使系统获得较高的数据存储效率。
其他文献
语义分析一直是自然语言处理研究领域的重要目标之一,在目前深层语义分析很难实现的情况下,浅层语义分析的重要性不言而喻。语义角色标注作为浅层语义分析的一种常用表达方式
随着互联网的发展,智能终端产业得到高速发展,随着移动终端被开发出各种各样的功能,移动端已成为人们获得所需信息的重要渠道和来源。目前市场上主流的移动端中,较为成熟的操
字库字体是信息记录、存储与交流的重要工具,被广泛地应用于计算机、报纸、书籍、杂志等传统媒介和新兴领域。随着各种风格字体的不断推出,也在不断触碰汉字及汉字书写规范性
随着互联网和信息技术的迅速发展,许多行业和企业对于数据中心的服务需求持续增长,数据中心的数量和规模都在成倍增长。云计算的出现,改变了传统IT基础设施的使用方式和软件
问答系统是新一代的搜索引擎,它可以精确的检索答案给用户,更好的满足用户的查询请求。问句分类是问答系统中一个非常重要的环节,其性能直接影响到后期答案抽取的准确性,关乎
近年来,确保系统的高度可靠性,已成为构建超级计算机系统面临的主要技术挑战。一方面,超级计算机系统的计算作业通常需要持续运行数天甚至数月的时间。而系统部件的故障不可
储能飞轮技术的发展有两个非常明显的趋势:一是实现高储能密度,二是追求轻质化。近些年来,有不少研究者将两个趋势进行融合发展,形成同时具备高储能密度和轻质化两项优点的更先进的储能飞轮系统。本文以此为切入点,具体到高储能密度飞轮系统关键技术之一的飞轮转子系统,进行深入的理论分析和实验工作。本文根据飞轮储能系统储能密度300 Wh/kg等主要技术指标要求,通过理论计算与ANSYS软件分析相结合的方法,得出
随着社会经济与科技的高度发展,工业生产也逐步地向高速化、智能化方向发展,基于机器视觉的全自动智能灯检机定会取代人工灯检成为未来医药生产的必然趋势所在。但智能灯检机
5G的三大类场景中,尤其是上行链路,移动互联网中大量应用如微博、即时通信,社交网络等顶层业务,以及大规模物联网中会产生大量的小数据包。这种小数据包业务面临两个问题,其
大规模矩阵数值计算是科学和工程中最常见和基本的问题。矩阵数值计算通常需要大量的计算资源,然而对于计算资源有限的客户来说,完成矩阵计算过于昂贵而无法完成。云计算为用