重复数据删除系统数据组织研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:zjamoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速增长的数据存储系统中,重复数据删除技术的作用越来越重要,广泛应用于VTL(Virtual Tape Library)系统、数据备份系统、数据归档系统等。重复数据删除的核心思想是将一个数据文件或流分成连续的块,使用哈希函数(如SHA-1)为每个数据块生成相应的摘要信息(称为指纹值),查找指纹值表将每个块的指纹值和所有已存储块的指纹值比较,当数据块出现重复时仅存储其元数据信息,从而减少对存储空间的消耗。国内外在重复数据删除系统领域已经开展了大量的研究,但在数据组织形式方面仍然存在着足够的优化空间。具体的说,是针对重复数据删除系统的特有数据访问模式,研究更加高效的存储架构和数据管理策略,以充分发挥存储设备的效能,降低存储系统能耗。论文围绕重复数据删除系统的节能数据组织、对象级去重、元数据存储策略、数据恢复方法等开展研究,主要创新点如下:(1)提出一种面向分块的交叉分组数据组织方法,针对重复数据删除系统的连续数据访问模式降低存储能耗。重复数据删除系统一般采用RAID(Redundant Array of Independent Disks)来提供存储和数据保护,去重后的数据均匀分布存储在各磁盘上,但少数磁盘即能提供连续数据访问的I/O带宽。论文设计了一种RAID-5交叉分组的数据组织方法以及节能磁盘调度算法,通过调整水平磁盘分组大小适应不同的系统吞吐量要求,通过调整垂直分组大小减少校验磁盘切换次数,从而使I/O请求集中在某个水平磁盘分组,其他分组的磁盘进入待机模式。在Linux操作系统MD(Multiple Device Driver)模块的基础上实现交叉分组布局,验证了该布局在10磁盘3分组的存储配置下降低能耗约26%。(2)提出一种面向OpenXML复合文件去重系统的对象存储数据组织方法,实现去重对象的高效存储。论文设计了一种RAID-4非对称分组的对象存储数据组织方法和磁盘分组调整算法。各个磁盘分组所包含的磁盘数目可以按需调整,有两组磁盘并行工作,分别存储易变类型对象和非易变类型对象。采用预测机制实现分组调整,均分调整算法按照系统的I/O性能要求计算磁盘分组调整因子;按比例调整则考虑不同类型对象的存储比例需求。非对称分组的数据组织适合去重对象的存储,可根据备份数据流的负载变化调整磁盘分组。在10磁盘、初始3分组的存储配置下,磁盘分组的均分调整和按比例调整分别降低约22%和27%的能耗。(3)提出一种基于访问频度的冷热元数据存储组织策略,提高元数据访问效率。为降低磁盘索引访问次数,大多数研究集中在指纹值查找技术,忽略了由索引查找和元数据存储引入的能耗问题。论文将元数据分为热元数据和冷元数据,热元数据的存储采用交叉分组的数据组织,基于B+树组织索引结构,并将指纹值表分成子表,子表的大小受数据组织中存储子块大小的控制,按照数据流中存储块到达顺序存储元数据条目;冷元数据采用单块磁盘顺序写的方式写入磁盘组,使用追加式的文件结构来保持空间局部性。将冷热元数据分开存放,在热元数据5磁盘2分组和冷元数据3磁盘3分组的存储配置下,降低元数据存储能耗约21%。(4)提出一种基于存储位置的副本复制和恢复策略,提高数据恢复效率。存储重复数据块能有效提高数据恢复速度,以往研究大多根据重复访问率来决定需要复制哪些数据块,组成最新备份的数据块往往分布在存储系统的各处,因此恢复去重数据会导致大量对磁盘的随机读取。论文设计一种基于存储位置的有选择复制和数据恢复策略,对交叉分组的数据组织进行进一步的区域划分。引入距离访问矩阵,用块访问距离反映所在存储区域的状态,在恢复去重数据时,选择一个相对最优的读取区域。在10磁盘3分组的交叉分组数据组织下,这种优化策略能够在降低重复数据删除率7.4%的代价下,提高22%的数据恢复性能。对于非对称分组的对象存储数据组织,相比普通RAID-4能够提高约11%的数据恢复性能。
其他文献
档案工作的发展,关键在档案人员的素质。档案人员素质决定档案工作的质量,也在很大程度上影响档案工作管理水平的高低,加强档案队伍建设,提高档案人员素质,是搞好档案工作的根本保
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
电子照片文档的存储,可以摆脱传统纸质照片容易丢失、容易失真和难以储存等问题,继而可以增加照片管理的效率,方便人们对照片的管理和查询。本文主要对电子照片档案的优点、管理
民主法治国家的司法运行,人们普遍期待法院和法官在案件审理和裁判中保持超然于政治的立场。但是,由于司法权本身就是政治性分权的产物,又是在政治权力斗争中历史的、在不同
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文通过西安培华学院图书馆近年来的发展过程,探讨了培华图书馆服务模式的变革过程,提出了网络环境下图书馆服务模式的发展趋势及对馆员的要求。
摘要:民办高校是国家高等教育的重要组成部分,在办学实践中民办高校树立了以人为本的教育理念,结合本身具有适应性、灵活性的特点,在培养具有创业能力的复合型人才上采用有力措施,保证人才的培养。本文在确立了民办高校创业教育的目标定位应用性目标、“金字塔式”目标的基础上,试图建立民办高校立体化创业教育体系,构建模块课程体系、实验模拟体系、实践指导体系三维一体的立体化系统,构建面向全体,分层培养、多维指导立体
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield