论文部分内容阅读
近年来,各种数据密集型应用得到了前所未有的快速发展。这些应用对存储系统的要求越来越高。为了满足这些应用的需求,许多存储系统采用先进的软硬件技术为上层应用提供高效率的存储管理和高性能的I/O服务。但是随着存储系统规模增大、存储磁盘数目增多,更多类型的故障频繁的发生,给存储系统的可靠性与可用性带来巨大的挑战。本文通过分析现有机群文件系统数据高可用方面相关研究,并结合DCFS3的实现,设计了一个高可用的多复本文件系统—HA-DCFS3;并在分布式文件系统高可用机制的I/O处理、故障检测、以及故障恢复方面进行了相关的研究。主要研究内容及结果如下:
⑴设计并实现了一种高效的、扩展性良好的多复本I/O处理机制—异步primarycopy机制。传统的primary copy机制必须保证每次写操作成功更新到所有的文件复本。异步primary copy机制对传统的primary copy机制进行了优化,只要求每次写操作成功更新到部分文件复本。这种对写操作的优化有效地降低了用于维护复本一致性的代价,并且使系统具有更好的灵活性和扩展性。
⑵提出并实现了一种细粒度故障探测机制—I/O路径探测机制。传统的探测机制以节点为粒度,本文提出了一种以连接为粒度的更细粒度探测机制—I/O路径探测机制。利用这种探测机制,可以准确地定位两个节点间的连接失效,有效减小故障视图。
⑶设计并实现了一种两层次的恢复策略。这种策略区别系统中的瞬时失效和持久失效。对瞬时失效采取数据一致性恢复策略,对持久失效采取数据重建恢复策略。通过这种数据恢复方式,可以在数据恢复过程中减少不必要的修复带宽。
⑷针对持久失效,设计并实现了一种快速并行修复策略。这种并行修复策略利用复本放置策略将单个节点上的复本尽量分散在所有存储节点中。当要对失效节点上的数据进行数据重建的时候,并行修复策略可以最大限度地利用并行修复I/O,有效地缩短修复时间,进而提高系统的可用性。