论文部分内容阅读
大数据时代,数据量正以前所未有的速度增长,全球数据总量突破10ZB,单个数据中心数据量也达到了EB级。数据量快速增长对存储系统提出了更高的挑战,其中,如何有效地对大数据进行保护成为研究热点。作为数据保护最常用的手段,备份系统会成倍地增加数据量,带来严重的存储空间消耗。研究表明,数字世界中包含大量冗余数据,尤其是在备份系统中,冗余数据比例普遍高于80%。重复数据删除作为一种数据缩减技术,能有效地检测和删除备份系统中的冗余数据,显著提高存储利用率,降低管理成本。同时,重删能减小备份窗口,并在远程备份时降低网络通信开销,因此得到了广泛应用。但是,备份系统中重删技术仍面临挑战。首先,重删系统的设计随着存储环境的不同而改变,而对于备份系统,缺乏一个针对重删的长期数据集研究。其次,当数据量过大而不能存储在单个节点时,分布式重删会带来存储节点间信息孤岛效应,需要设计有效的数据路由算法来合理分配数据,以保证集群重删率和节点间负载均衡。再次,长时间的备份操作会带来存储碎片化,严重影响了备份的写入和恢复速度。最后,常用的重删策略将备份数据以数据流的形式处理,无法利用用户数据间相似度指导路由,导致严重的路由开销。本文在研究当前备份系统中重复数据删除技术研究现状的基础上,通过深入分析数据集特性,设计并实现了新的集群重删策略。本文主要工作和创新点如下:
(1)自主收集了数据集FSL-Homes,并从重复数据删除角度对该数据集进行了详尽地分析与测试,总结出许多有价值的结论,并在众多高水平论文中得到了引用。该公开发布的数据集跨度长达2.5年,包含了32个用户超过4000份快照,总数据量超过450TB,且包含丰富的元数据。从单节点重删和集群重删的角度对该数据集进行了测试与分析。在单节点测试中,发现由于备份系统存在较高的冗余度,采用小的数据分块方式由于其带来的元数据开销反而会降低重删率。全文件分块方式重删效果很差,主要由于占据数据集绝大部分空间的大文件采用全文件分块时重删率极低。从用户个人数据角度进行测试与分析时,发现属于同一工作环境的用户在重删特性上差异极大,不同用户在重删率以及对分块大小的敏感度上存在显著差异。在集群重删性能测试中,首先对目前7种代表性数据路由算法进行分类总结并加以实现,随后从集群重删率、逻辑/物理负载均衡和通信开销三个方面对这些算法进行了测试分析。结果显示以文件为路由粒度可以提高系统的集群重删率,但会导致负载不均衡,这主要是因为不同文件类型之间的大小差异很大。采用大的数据分块可显著提高备份系统性能,因为其路由开销和重删开销(包括分块、索引和元数据开销)都会降低,且对重删率的影响并不大。由于不同数据块自身冗余度并不相同,因此对于同一种算法,其逻辑和物理负载均衡效果并不一致。通过上述分析结果,对未来备份系统中重复数据删除技术的应用提出了有价值的建议。
(2)提出了基于用户信息的高效集群重删策略,从数据路由和哈希索引两个角度对系统进行了优化。基于用户信息数据路由算法首次利用用户数据集间的相似度来指导集群重删系统数据路由。通过对FSL-Homes数据集的分析,发现用户数据集间相似度有明显的分组特性,可使同一组内用户间数据高度冗余,而不同组间用户数据冗余度较低。为了对用户快速分组,研究了组内用户共享数据属性,发现这些用户彼此间共享数据块相似度极高,且其出现频率显著高于其他数据块。基于上述发现,设计并实现了基于用户信息的数据路由算法,在各存储节点构建用户热数据索引,来指导超块路由。通过开发用户数据间的相似性,该数据路由算法可以在采用极大超块的基础上,把相似用户数据路由到同一存储节点,在保证系统重删率的同时减少路由开销。在存储节点哈希索引阶段,利用用户连续快照间相似度较高的结论,设计了基于文件谱的哈希索引优化策略,有效减轻了碎片化对备份系统写性能的影响。实验结果显示,该集群重删策略能有效提高集群重删率,显著降低路由开销并提高备份系统的写速度。
(3)提出了一种可扩展、低通信开销的数据路由算法DS-Dedup,以应用于不包含用户信息的集群重删场景。该算法在每个客户端建立一个超块相似度索引表,以充分利用客户端数据流的相似性。对于一个新的超块,首先将其掌纹在该索引中进行相似度匹配,当掌纹与索引表中的相似度大于一定阈值,且具有最高的加权相似度时,可直接确定目标存储节点,避免了路由过程中的通信开销。对于相似性较低的超块,采用一致性哈希表进行路由传输,以保证系统的可扩展性。实验结果表明,相对于其他有状态数据路由算法,DS-Dedup能在保证较高的数据重删率基础上,获得近似于无状态路由的网络通信开销,网络开销获得数量级程度的降低。
通过上述几项针对大数据环境下备份系统中重复数据删除技术的研究,为未来备份系统重复数据删除技术的应用提供了有力的技术支撑。
(1)自主收集了数据集FSL-Homes,并从重复数据删除角度对该数据集进行了详尽地分析与测试,总结出许多有价值的结论,并在众多高水平论文中得到了引用。该公开发布的数据集跨度长达2.5年,包含了32个用户超过4000份快照,总数据量超过450TB,且包含丰富的元数据。从单节点重删和集群重删的角度对该数据集进行了测试与分析。在单节点测试中,发现由于备份系统存在较高的冗余度,采用小的数据分块方式由于其带来的元数据开销反而会降低重删率。全文件分块方式重删效果很差,主要由于占据数据集绝大部分空间的大文件采用全文件分块时重删率极低。从用户个人数据角度进行测试与分析时,发现属于同一工作环境的用户在重删特性上差异极大,不同用户在重删率以及对分块大小的敏感度上存在显著差异。在集群重删性能测试中,首先对目前7种代表性数据路由算法进行分类总结并加以实现,随后从集群重删率、逻辑/物理负载均衡和通信开销三个方面对这些算法进行了测试分析。结果显示以文件为路由粒度可以提高系统的集群重删率,但会导致负载不均衡,这主要是因为不同文件类型之间的大小差异很大。采用大的数据分块可显著提高备份系统性能,因为其路由开销和重删开销(包括分块、索引和元数据开销)都会降低,且对重删率的影响并不大。由于不同数据块自身冗余度并不相同,因此对于同一种算法,其逻辑和物理负载均衡效果并不一致。通过上述分析结果,对未来备份系统中重复数据删除技术的应用提出了有价值的建议。
(2)提出了基于用户信息的高效集群重删策略,从数据路由和哈希索引两个角度对系统进行了优化。基于用户信息数据路由算法首次利用用户数据集间的相似度来指导集群重删系统数据路由。通过对FSL-Homes数据集的分析,发现用户数据集间相似度有明显的分组特性,可使同一组内用户间数据高度冗余,而不同组间用户数据冗余度较低。为了对用户快速分组,研究了组内用户共享数据属性,发现这些用户彼此间共享数据块相似度极高,且其出现频率显著高于其他数据块。基于上述发现,设计并实现了基于用户信息的数据路由算法,在各存储节点构建用户热数据索引,来指导超块路由。通过开发用户数据间的相似性,该数据路由算法可以在采用极大超块的基础上,把相似用户数据路由到同一存储节点,在保证系统重删率的同时减少路由开销。在存储节点哈希索引阶段,利用用户连续快照间相似度较高的结论,设计了基于文件谱的哈希索引优化策略,有效减轻了碎片化对备份系统写性能的影响。实验结果显示,该集群重删策略能有效提高集群重删率,显著降低路由开销并提高备份系统的写速度。
(3)提出了一种可扩展、低通信开销的数据路由算法DS-Dedup,以应用于不包含用户信息的集群重删场景。该算法在每个客户端建立一个超块相似度索引表,以充分利用客户端数据流的相似性。对于一个新的超块,首先将其掌纹在该索引中进行相似度匹配,当掌纹与索引表中的相似度大于一定阈值,且具有最高的加权相似度时,可直接确定目标存储节点,避免了路由过程中的通信开销。对于相似性较低的超块,采用一致性哈希表进行路由传输,以保证系统的可扩展性。实验结果表明,相对于其他有状态数据路由算法,DS-Dedup能在保证较高的数据重删率基础上,获得近似于无状态路由的网络通信开销,网络开销获得数量级程度的降低。
通过上述几项针对大数据环境下备份系统中重复数据删除技术的研究,为未来备份系统重复数据删除技术的应用提供了有力的技术支撑。