数据归档中重复数据删除技术的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:Kingss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息系统中的数据量飞速增长,用于实现数据缩减的重复数据删除技术日益为人们所重视。重复数据删除技术主要应用于数据备份系统和数据归档系统。由于数据归档系统需要将PB级的数据保存50年以上,所以数据归档中的重复数据删除在删除率、删除速度和数据可靠性上有着更高的要求。本文的目的是提高重复数据删除的删除率、删除速度和数据可靠性。本文的工作包括如下几个方面:   1.分析了现有的系统。本文分析了现有的文件分块算法,分析结果表明:固定长文件分块算法会因为数据块平移导致重复数据被误判为非重复数据,可变长文件分块算法由于分块粒度太大导致删除率较低,基于内容的文件分块算法通用性不好。然后,本文分析了现有的数据块索引,分析结果表明:基于单层哈希表的数据块索引由于桶内哈希值过多导致删除速度较慢,基于数据库的数据块索引由于需要对SQL语句进行解析导致删除速度较慢。最后,本文分析了现有的虚拟磁带库,分析结果表明现有的虚拟磁带库不能保证数据的可靠性。   2.CFV(Combination of Fixed size and Variable size)文件分块算法。本文实现了将固定长分块算法和可变长分块算法相结合的CFV文件分块算法;并通过数学分析和实验测试证明了CFV文件分块算法的重复数据删除率比可变长分块算法(venti系统)和固定长分块算法(data domain系统)提高一倍以上,比基于内容的文件分块算法(ADMAD系统)提高78%。   3.MLHT(Multi-Layer Hash Table)数据块索引。本文实现了基于多层数据块哈希表的MLHT数据块索引;并通过实验证明了MLHT数据块索引的重复数据删除速度比基于单层哈希表的数据块索引(data domain系统)提高63%,比基于数据库的数据块索引(ADMAD系统)提高39%。   4.本文在系统中使用冗余的虚拟磁带库来提高数据的可靠性,并使用多归档服务器负载均衡来提高重复数据删除速度和数据块索引的可靠性。   在未来的研究工作中,我们将进一步研究如何设计更完善的测试集,如何通过聚类算法提高重复数据删除速度,如何设计高效的数据块索引缓存来提高删除速度。
其他文献
情境感知是普适计算中一项重要的研究内容,有着极大的应用前景,可广泛应用于各种服务和应用,如医疗监护、智能家居/办公、社交网络、商业推荐等方面。其中,基于移动终端平台的情
随着集成电路制造工艺的发展,工艺偏差、时延缺陷、串扰效应以及电源噪声等将对芯片的定时产生更加严重的影响,并可能导致芯片的时延故障。为了确保芯片工作的可靠性,非常有必要
加权概念格是针对属性的重要程度,通过引入内涵权值而形成的一种格结构,并通过引入虚结点概念,保证了格结构的完备性。本文,对加权概念格的渐进式构造以及分类规则提取进行了
自动人脸识别技术经过几十年的发展,在可控条件下已经可以达到比较理想的性能。然而,在环境变化剧烈的情况下,人脸识别的性能会急剧下降。现有的人脸识别方法通常是基于较低分辨
现有的计算智能算法主要模拟了物理化学规律及动物的社会行为,对于植物的生长模式尚未给予足够重视。由于植物对环境的适应能力较强,生长速度较慢,因此,模拟植物的生长过程为
图形处理单元(Graphics Processing Unit,GPU)从问世以来便迅速发展,并很快成为计算机系统中不可或缺的重要组成部分。目前GPU已在低端嵌入式系统、个人桌面应用、图形工作站乃
随着虚拟化技术的不断发展,虚拟机软件扮演着基础平台的角色。KVM(Kernel-based Virtual Machine)是一种基于硬件的完全虚拟化的系统仿真器,自Linux2.6.20之后,它被集成在Linux
城市三维信息的获取对城市建设、开发规划、信息服务等方便起着重大作用,且可用于三维模式识别、3D动画设计等新兴领域。计算机立体视觉是被动式测距方法中最重要的距离感知技
超龙一号系统是国家智能计算机研究开发中心提出的一种以应用为导向的技术路线。其中的算法可重构加速卡基于FPGA实现,是整个系统的一个重要组成部分,关系到整个系统的效率。而
随着计算机、通信、网络、嵌入式等技术的发展,普适计算的硬件环境和软件环境正在发生巨大变化。这种变化使得普适计算的信息空间,与人们生活和工作的物理空间逐渐融为一体。在