论文部分内容阅读
近年来云计算技术的发展,对网络存储系统的容量、性能和可用性提出更高的要求。分布式文件系统作为网络存储系统的核心软件,对外提供文件的保存、获取、组织、共享以及保护工作。元数据服务器对于分布式文件系统的整体服务十分关键,其性能和可靠性直接关系到整个系统的性能和可用性。在Parastor FS系统中已经实现基本的元数据高可用机制,在保证系统现有可用性的基础上,提高系统的性能十分必要。在分布式文件系统中,元数据的一致性和可靠性对系统的可用性非常关键。通过将日志技术应用到文件系统中,保证了元数据的一致性。本文通过研究分布式文件系统Parastor FS中日志技术和副本技术的实现,针对以上两个问题进行优化,主要研究内容包括:
(1)提出基于元数据文件的日志数据组织方法。日志技术通过在修改元数据前,将元数据修改记录到日志设备保证元数据一致性,在系统故障后,通过重新应用日志数据将元数据恢复到一致状态。一次元数据修改请求涉及对多个元数据文件的多处修改,多个元数据修改请求记录的目志数据中存在不同类型的冗余数据。对于记录到日志设备的事务,聚合事务中的冗余数据,可以降低对日志设备空间的使用。日志数据聚合的关键问题:日志数据的组织,即聚合后事务的原子性;聚合前后日志数据的对应关系,在故障副本恢复时,需要基于在服务副本的对应日志数据将元数据恢复到一致状态。
(2)提出多事务流水同步机制。副本技术通过在多个存储节点保存数据的多个副本解决了元数据服务器单点故障使得元数据不可用的问题。但是副本技术需要在多个副本节点上修改元数据,副本问的数据传输性能对元数据服务器处理元数据请求的能力起着重要作用。在Parastor FS系统中,元数据服务器基于日志数据维护元数据的多副本,现有的副本实现,副本间有序传输日志数据,限制了元数据服务器的性能。通过将副本之间数据同步和日志数据保序分别处理,提高副本间日志数据同步的并发度。
经过测试表明,通过本文的优化,元数据服务器在保证现有可用性机制的同时,通过日志数据聚合,减少了日志数据中的冗余数据,在聚合粒度为4MB时,记录的日志数据量降低为原来的1/5;通过分离副本之间数据同步功能,提高副本之间数据同步的并发度,进而提高元数据服务器的性能,在客户端压力比较大的情景中,元数据服务性能提升约11%。