论文部分内容阅读
元数据,作为描述数据的数据,是机群文件系统的重要组成部分。元数据服务的高可用对于降低元数据服务器异常宕机对正常应用的影响具有十分重要的意义。然而,现有的典型机群文件系统元数据高可用技术方案主要存在两个问题:一是在保证失效接替一致性和正常访问性能的高可用方案中存在接替时间长的问题;二是在保证一致性和接替时间短的高可用方案中存在对正常访问性能影响大的问题。本文主要针对第二类问题进行研究,提出一种在保证失效接替一致性和接替时间短的同时,降低正常访问延迟、提升访问性能的高可用方案和一种备机元数据服务的在线重构机制。本文的工作和贡献如下: 对影响机群文件系统高可用方案性能的主要因素进行总结分析。根据对当前主流文件系统高可用方案的对比和分析,本文总结了影响机群文件系统高可用方案性能的三个主要因素:一致性、连续性和对正常访问性能的影响,并且指出现有高可用方案还未能很好地解决同时满足这三个因素的问题。同时,为本文的研究提供指导方向和性能评价指标。 提出并实现采用恢复缓存网络备份的异步元数据更新高可用方案。本文采用了元数据异步更新,在元数据正常访问过程中元数据更新操作结果在内存中完成后,即可通过网络向备份元数据服务器发起备份过程,而不必等待操作结果同步写入到元数据持久介质上,降低了同步写入磁盘操作带来的响应延迟开销。但元数据异步更新模式带来了新的接替情境,备机需对宕机前已完成网络备份但还未写入到磁盘上的元数据更新操作进行重放恢复,并解决有依赖关系的元数据操作恢复顺序的难题。本文提出的基于简化版本号的恢复方案,利用AOV网的拓扑排序将元数据操作按照被依赖关系进行恢复,巧妙地解决了重放顺序问题,保证了失效接替一致性。该方案还支持无依赖关系操作的并发恢复,缩短失效接替时间,提升系统可用性。基于BWFS_PNFS实现原型系统,和原有同步高可用方案相比,测试结果表明:在单客户端访问模式下,正常访问性能提升0.27倍~1.42倍,在多客户端并发访问模式下,正常访问性能提升0.37倍~2.63倍,失效接替时间在6s范围内,维持在同一数量级。 提出并实现—种不阻塞正常访问请求的备机元数据服务在线重构机制。在机群文件系统中,添加新的元数据服务器使其成为备机的过程称为备机元数据服务的重构过程。本文在不阻塞客户端正常访问请求的情况下,完成对新添加备机的重构,对系统正常性能影响小。通过建立状态缓存池,有效解决有依赖关系状态缓存的重构问题,并且兼容仅剩余主机在线的重构情况。在线重构能够有效提高系统容忍元数据服务器同时宕机的能力,通过增大系统无故障时间增加的概率提升系统高可用。测试结果表明:当内存中状态缓存为MB级别时,在线重构时间达到秒级,且不阻塞客户端正常请求,具有可行性和实施意义。