论文部分内容阅读
本论文讨论了大规模数据集备份的情形下,利用嵌入归档文件头部的自描述元数据信息对散落的归档文件集合实施有效管理的方案,并进行了详细设计与实现。
在通常的备份归档系统中,会遗留下大量散落的归档文件,只有对归档文件实施有效的管理才能使其成为有意义的可恢复数据。并且随着归档集合规模的增大,对归档的操作变得愈加复杂,需要灵活简便的工具来帮助管理人员实施管理。
论文探讨了对档案文件集合的分类管理需求,建立了由元数据构建得到的多级分类的树状档案集合模型。论文讨论了元数据集合、元数据划分、元数据分类树等模型的若干性质,给出了由元数据节点组织为分类树的方法。对这些模型给出了半形式化的描述。
在元数据分类树的基础之上,论文定义了通过树结构视图在归档集合上进行的选择扩展、级联删除、迁移、验证、搜索等操作并给出了相关算法。还讨论了针对不同的归档类型的情形下一致的集合操作语义。
在模型讨论基础之上,本文设计了元数据的分散存储、树结构的组织生成。实现了分类树类与归档管理类等可重用组件,设计实现了一套命令行工具框架和一组命令行UI类体系,使得创建、扩展命令行工具更简便清晰,输入输出结构化信息更具语义特性。
本文在归档集的分布式元数据管理基础上适当引入集中元数据缓存的思想,设计实现了元数据与分类树缓存机制,利用归档极少改动的特点在大规模归档集的情形下能够保持良好的性能。
笔者实现了满足管理需求的命令行工具,采用一致的命令行子命令、参数与选项格式,并且产生结构化输出,适合脚本批处理应用。定义统一的档案文件集合操作接口,使得扩展的插件可以对不同类型的档案进行一致的操作。
对元数据分类树模型的讨论、管理操作的定义与实现、不同归档类型的一致集合操作的讨论为归档系统的通用性的提出奠定了基础。元数据存储设计、缓存机制设计、命令行工具的构建,给备份系统的归档管理提供了一个简便易行、可扩展的方案。命令行输出的结构化设计为脚本的编写提供了可能,并在此基础上封装实现了图形界面工具,使得管理人员可以通过图形界面管理远端主机的命令行工具与归档集合。