面向备份系统的重复数据删除关键技术研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:cbbbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据量正以前所未有的速度增长,全球数据总量突破10ZB,单个数据中心数据量也达到了EB级。数据量快速增长对存储系统提出了更高的挑战,其中,如何有效地对大数据进行保护成为研究热点。作为数据保护最常用的手段,备份系统会成倍地增加数据量,带来严重的存储空间消耗。研究表明,数字世界中包含大量冗余数据,尤其是在备份系统中,冗余数据比例普遍高于80%。重复数据删除作为一种数据缩减技术,能有效地检测和删除备份系统中的冗余数据,显著提高存储利用率,降低管理成本。同时,重删能减小备份窗口,并在远程备份时降低网络通信开销,因此得到了广泛应用。但是,备份系统中重删技术仍面临挑战。首先,重删系统的设计随着存储环境的不同而改变,而对于备份系统,缺乏一个针对重删的长期数据集研究。其次,当数据量过大而不能存储在单个节点时,分布式重删会带来存储节点间信息孤岛效应,需要设计有效的数据路由算法来合理分配数据,以保证集群重删率和节点间负载均衡。再次,长时间的备份操作会带来存储碎片化,严重影响了备份的写入和恢复速度。最后,常用的重删策略将备份数据以数据流的形式处理,无法利用用户数据间相似度指导路由,导致严重的路由开销。本文在研究当前备份系统中重复数据删除技术研究现状的基础上,通过深入分析数据集特性,设计并实现了新的集群重删策略。本文主要工作和创新点如下:
  (1)自主收集了数据集FSL-Homes,并从重复数据删除角度对该数据集进行了详尽地分析与测试,总结出许多有价值的结论,并在众多高水平论文中得到了引用。该公开发布的数据集跨度长达2.5年,包含了32个用户超过4000份快照,总数据量超过450TB,且包含丰富的元数据。从单节点重删和集群重删的角度对该数据集进行了测试与分析。在单节点测试中,发现由于备份系统存在较高的冗余度,采用小的数据分块方式由于其带来的元数据开销反而会降低重删率。全文件分块方式重删效果很差,主要由于占据数据集绝大部分空间的大文件采用全文件分块时重删率极低。从用户个人数据角度进行测试与分析时,发现属于同一工作环境的用户在重删特性上差异极大,不同用户在重删率以及对分块大小的敏感度上存在显著差异。在集群重删性能测试中,首先对目前7种代表性数据路由算法进行分类总结并加以实现,随后从集群重删率、逻辑/物理负载均衡和通信开销三个方面对这些算法进行了测试分析。结果显示以文件为路由粒度可以提高系统的集群重删率,但会导致负载不均衡,这主要是因为不同文件类型之间的大小差异很大。采用大的数据分块可显著提高备份系统性能,因为其路由开销和重删开销(包括分块、索引和元数据开销)都会降低,且对重删率的影响并不大。由于不同数据块自身冗余度并不相同,因此对于同一种算法,其逻辑和物理负载均衡效果并不一致。通过上述分析结果,对未来备份系统中重复数据删除技术的应用提出了有价值的建议。
  (2)提出了基于用户信息的高效集群重删策略,从数据路由和哈希索引两个角度对系统进行了优化。基于用户信息数据路由算法首次利用用户数据集间的相似度来指导集群重删系统数据路由。通过对FSL-Homes数据集的分析,发现用户数据集间相似度有明显的分组特性,可使同一组内用户间数据高度冗余,而不同组间用户数据冗余度较低。为了对用户快速分组,研究了组内用户共享数据属性,发现这些用户彼此间共享数据块相似度极高,且其出现频率显著高于其他数据块。基于上述发现,设计并实现了基于用户信息的数据路由算法,在各存储节点构建用户热数据索引,来指导超块路由。通过开发用户数据间的相似性,该数据路由算法可以在采用极大超块的基础上,把相似用户数据路由到同一存储节点,在保证系统重删率的同时减少路由开销。在存储节点哈希索引阶段,利用用户连续快照间相似度较高的结论,设计了基于文件谱的哈希索引优化策略,有效减轻了碎片化对备份系统写性能的影响。实验结果显示,该集群重删策略能有效提高集群重删率,显著降低路由开销并提高备份系统的写速度。
  (3)提出了一种可扩展、低通信开销的数据路由算法DS-Dedup,以应用于不包含用户信息的集群重删场景。该算法在每个客户端建立一个超块相似度索引表,以充分利用客户端数据流的相似性。对于一个新的超块,首先将其掌纹在该索引中进行相似度匹配,当掌纹与索引表中的相似度大于一定阈值,且具有最高的加权相似度时,可直接确定目标存储节点,避免了路由过程中的通信开销。对于相似性较低的超块,采用一致性哈希表进行路由传输,以保证系统的可扩展性。实验结果表明,相对于其他有状态数据路由算法,DS-Dedup能在保证较高的数据重删率基础上,获得近似于无状态路由的网络通信开销,网络开销获得数量级程度的降低。
  通过上述几项针对大数据环境下备份系统中重复数据删除技术的研究,为未来备份系统重复数据删除技术的应用提供了有力的技术支撑。
其他文献
随着信息技术的快速发展,万物互连正在加快实现。物理域组件和信息域组件正在加快融合,形成信息物理系统(Cyber-Physical System,CPS)。  许多大规模的信息物理系统如智能电网、智能交通和智能工厂等的广泛应用为人民群众提供高效的服务,然而,其高度的开放性也使得系统面临严峻的网络攻击威胁。特别地,数据注入攻击能够简单地实施和引起物理子系统性能严重降级或组件破坏。数据注入攻击是指攻击者
台风的准确预报可以减少由于台风破坏和人员疏散造成的损失,对于沿海城市的防灾减灾具有重要意义。海表风矢量是台风模拟和预报的不可或缺的参数,而卫星遥感得到的海表风观测的有效同化对于改善台风路径预报和强度预报具有重要作用。然而受限于目前资料同化的处理流程,大量风场观测在台风强对流天气条件下并没有被很好地利用起来。此外,不精确的背景场,缺乏流依赖信息的背景误差协方差,高风速风场观测误差的不准确描述都会影响
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据
计算机视觉是一门让计算机拥有理解周围复杂环境能力的学科,具有重要的理论研究意义和应用价值。但是目前计算机视觉系统大多采用二维信息处理方式,如智能交通系统,视频监控系统中仅仅采用单摄像头进行智能处理,缺乏对环境深度的感知,这在一定程度上给系统的可靠性和鲁棒性带来了隐患。随着越来越多计算机视觉应用技术逐渐走进人们的生活,提升着人们的生活质量,改善着人们的生活方式,对计算机视觉系统可靠性与鲁棒性的要求也
感知是以实践的方式理解世界的第一步,为分析物理现象、探索事件成因提供事实基础。在各产业、各城市推进信息化建设的过程中,高效的信息获取始终是相关服务及应用中的一个至关重要的环节,有效的数据感知是沟通现实与蕴含诸多规律的大数据之间的桥梁、纽带。与此同时,物联网的出现和发展不断加深对透彻以及大规模感知的需求,而传统无线传感器网络的高安装维护成本、能源消耗问题和感知覆盖能力的不足却与之相掣肘。另一方面,随
学位
混合存储技术可以满足大数据存储系统对高存取性能和大存储容量的需求,同时大幅降低存储系统的总体拥有成本。新型瓦记录磁盘采用区域化内部数据管理方式缓解叠瓦式磁记录技术固有的写放大问题,但在非顺序写请求干扰下仍会出现严重的写性能抖动。新型闪存技术的发展导致闪存芯片可擦除次数大幅下降和并行资源难以充分利用,闪存固态盘出现可靠性下降和单盘性能增长受限等问题。叠瓦式磁记录技术和闪存技术的发展为大数据存储提供了
高效的数据存储和实时分析处理是大数据时代的迫切需求,基于硬盘的传统存储系统由于巨大的访问延迟无法提供及时的响应,内存计算技术将工作数据存储在大容量内存中进行数据处理,减少甚至避免I/O请求,极大提高了大数据处理能力。但是由于“存储墙”和“功耗墙”问题,基于DRAM的内存系统依然难以满足大数据应用日益增长的大容量高性能低能耗存储需求。此外DRAM是易失的,数据的持久存储还需要依赖外存,无法完全避免高
学位
密文访问控制即由用户自行加密数据,通过对解密密钥分发范围的控制,来控制哪些用户有权访问数据。在密文访问控制系统中,用户可以不再依赖云服务提供商(Cloud Service Provider,CSP)来保护数据内容的安全,也能防止CSP非法的获取数据内容。目前的研究中,密文策略属性基加密(Ciphertext-Policy At-tribute Based Encryption,CP-ABE)被普遍
学位
近年来,数据量的激增迫切需要对可扩展机器学习关键技术的研究,而当前丰富的计算资源又为可扩展机器学习提供了机遇。为实现可扩展机器学习,本文从高效算法设计和并行与分布方法两条技术途径入手,对机器学习如何有效应对大数据挑战展开深入研究。基于算法与系统的协同设计,在保证精度的前提下,有效提高了机器学习的速度,增强了机器学习在计算和内存方面的扩展性,取得了以下几个方面的研究成果:  1.提出了两种数据和模型
学位
大规模分布式系统已成为云计算和现代应用的主要支柱,数十亿的终端用户实时依赖于这些系统的可信性。不幸的是,分布式系统中的性能缺陷常常引发严重的性能损失,继而导致糟糕的用户体验并带来严重的经济损失。然而,由于分布式系统中性能缺陷的复杂性和多样性,检测分布式系统的性能缺陷面临着大量挑战,特别是缺乏对分布式性能缺陷的全面且深入的认识、难以检测高复杂性的分布式性能缺陷,以及对涉及到复杂多线程的分布式性能缺陷
学位