基于重复数据消除的数据备份关键技术研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:zhdj600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的高速发展,信息数据量呈现出爆炸式的增长,当前全球数据中心的数据量堪称海量。据统计,这些数据中有高达60%为重复数据,而它们需要进行不断地存储和传输,这必然会浪费大量的存储空间和网络带宽,从而造成数据存储和管理成本的增加。因此如何利用重复数据消除技术对海量数据进行消冗存储,已成为存储行业当前亟需解决的重要问题之一。本文在基于重复数据消除技术的基础上,着重研究了相似数据的备份与恢复,主要的工作和创新点如下:(1)提出了一种基于线性Delta链的高效数据备份与恢复算法EDBRA:该算法较好的解决了基于线性Delta链备份系统中版本文件恢复效率低的问题,原因在于该方法在恢复数据时通过EDBRA算法计算出所需的Delta文件,再执行一次解压缩运算即可恢复出所需版本文件,从而有效的避免了中间版本文件的恢复。然后在此基础上设计了一种基于线性Delta链的EDBRA备份系统,该系统不仅保持了基于线性Delta链备份系统的最优备份性能,而且在数据恢复性能上明显优于传统的数据恢复方法。(2)进一步改进了EDBRA算法,提出了一种新的基于双向Delta链的数据备份与恢复算法BD_EDBRA:该算法在数据恢复时首先计算出数据恢复阈值,再根据阈值选择最优的恢复策略,这种策略使得数据恢复的时间开销比EDBRA算法有明显的降低,而数据备份性能与EDBRA算法相比仅略有增加。然后在此基础上设计了一种基于双向Delta链的BD_EDBRA备份系统,与基于线性Delta链的EDBRA备份系统相比,该系统的数据恢复性能有明显提升,且数据备份性能与之相近。(3)最后设计实现了基于线性Delta链的EDBRA备份系统和基于双向Delta链的BD_EDBRA备份系统,并对该系统进行了大量的数据测试。实验数据表明:前者在数据恢复性能上明显优于传统的数据恢复方法,且仍然保持了基于线性Delta链最优的备份性能;后者的备份性能与前者相比略有下降,但是其恢复性能较前者有明显的提升。
其他文献
本文对网络管理的协议及其相关技术,以及网络拓扑发现的实现原理进行了研究。首先介绍了一个将SNMP协议与ARP协议以及ICMP协议相结合的针对网络层的网络拓扑自动发现算法设计
  本文首先分析我国大多数中小软件企业的特点,并阐述本文研究的主要内容及其意义。其次,总结和阐述软件工程、软件过程、CMM和CMMI的相关基本概念,同时分析和总结我国中小型
粗糙集理论(Rough set理论)是由20世纪80年代波兰人Z. Pawlak提出的一种新的数学数据分析工具,它通过严格的数学公式来处理不精确性、不确定的问题,具有演绎、归纳和常识推理
随着计算机技术和网络技术的飞速发展, 由此产生的各种数据呈几何级数爆炸式增长, 各种在线数据增长迅速, 促使数据存储容量以每年3 到5 倍的速度急剧增加。大量数据密集型的
为了充分利用并行分布式计算资源解决大规模现实世界问题,并行处理技术和模块化结构已经被广泛地引入了模式识别领域中的分类器设计。本文研究了一种基于训练集划分的问题分解
电子政务(E-government)是指各级政府部门运用先进的信息手段,将政府可公开的信息面向社会、面向公众发布,并使政府的服务工作网络化。实施电子政务有助于政务公开和提高政务各
  本论文对数据仓库,数据挖掘及数据可视化技术进行了归纳总结,深入详细地研究了PMML结构,PMML树模型和PMML关联规则模型,设计了PMML解析器DMVTable,分析了OpenGL技术,设计了图形
本文结合作者在一家手机设计公司的实习经历,详细阐述一款MP3手机的MP3播放功能部分的设计和实现,包括方案选择、与手机基带芯片的硬件接口、软件通信协议等。  总结了一款
实现语义Web构想的关键是创建本体,并使用本体词汇对Web内容进行语义标注。在标注工具中集成信息提取(IE)技术,可大大提高语义标注工具的自动化程度、减轻用户负担。而自适应
  本文对BDD的构造算法进行了分析和改进,给出了BDD包中构造BDD的算法,并分析了该算法存在的问题及相应的改进技术,提出了自己的改进算法:首先是引入了公理系统,将原有的布尔函