基于相似性的分布式文件系统在线去重方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qg20090908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,重复数据删除技术主要应用于备份和归档系统中,该技术能够降低存储成本并提高系统吞吐量。近年来,在主存储系统中应用去重技术成为了一个热点研究方向。然而,目前最先进的适用于主存储的重复数据删除系统只提供离线的解决方案,离线意味着需要足够的时间窗口,额外的空间和能源开销。相对于离线方案,在线重复数据删除解决方案的最大挑战是,在综合考虑去重率,访问延迟,吞吐量和管理开销等多个指标后,达到一个可接受的综合性能。  ProSy是一款以高精度的相似性判定算法为基础而构建的适用于分布式文件系统的在线重复数据删除系统。该系统可以达到可接受的综合性能,不会引入文件碎片,不需要文件布局信息,而且它更可靠,因为它使用逐字节的比较代替了传统的指纹比较来保证数据的完整性。ProSy的主要思想是通过把首先把文件分割为等长的数据段,再把相似的数据段划归为一类,每一类都拥有自己的比较集,来尽量减少在去重时需要的比较集的大小。通过在真实的数据集上进行的实验评估,表明ProSy是可行的,它能达到令人满意的性能。与未安装ProSy之前的基准系统相比,安装ProSy后可以删除掉60%以上的潜在重复数据,降低了27%的延迟,CPU利用率为2.7%,写吞吐率降低了17%,读吞吐率提高了44%。
其他文献
计算机网络和信息技术的快速发展,使人们日常生活及工作环境对计算机网络和信息系统的依赖越来越密切,对网络安全的要求也越来越高。当前网络安全防护技术有很多,如防火墙,访
在目前典型的虚拟机管理器中,都提供了相应的虚拟机在线迁移技术,被广泛应用在数据中心的容灾备份、负载均衡等应用中。虚拟机在线迁移一般都采用基于内存预拷贝的方式,但这种方
软件生产是一个相当复杂的过程。在计算机出现后的几十年中,探索新的软件方法和技术以提高计算机软件的生产率和质量一直是软件工程领域研究的一个焦点。在1987年前后,美国卡
电子商务、电子政务已经成为社会信息化的主要潮流和必然趋势,在军事领域,电子军务也将成为我军军队信息化建设的前提和基础,对推进我军从半机械化、机械化向信息化发展具有非常
并行分布计算是当前计算机科学的热点之一。而并行系统中的任务调度算法是影响分布式计算效率的关键因素,也是一个具有挑战性的课题。并行系统中任务调度是指把一个应用中有先
基于云计算的新型移动应用需要通过无线网络和云平台进行频繁的数据交互,而无线网络的不稳定性可能会导致数据传输能效过低,大量消耗资源受限的移动设备中宝贵的电池资源。另一
当今随着经济环境的全球化,企业面临着越来越激烈的竞争。大多数有竞争力的企业都把对业务过程的管理作为他们成功的关键。工作流管理系统将实际的业务过程转化成某种计算机化的形式表示,通过调用有关的信息资源与人力资源来协调工作流中的各个环节,使之按照一定的顺序依次进行,从而实现业务过程的自动化。它为企业和政府部门创造了良好的协同工作环境。 工作流模型是整个工作流技术的重要内容,而模型的正确性分析和性能
随着网络、多媒体技术以及大容量信息存储介质的发展,基于内容的视频检索技术日益成为目前多媒体技术的研究热点。镜头边界的检测则是基于内容视频检索的基础和重要步骤,它可以
互联网的飞速发展极大地方便了人们从网络上获取多媒体数据,同时也给版权保护这一问题提出了新的挑战。数字水印技术作为一种新的有效数字产品版权保护的技术手段,是目前国际
现代存储系统采用纠删码技术避免因磁盘故障导致的数据丢失,提高系统的可靠性和可用性。在以磁盘为存储介质的存储系统中,TP编码和STAR编码等纠删码,可同时容忍系统中任意三个节