论文部分内容阅读
机群结构已成为高性能计算机的主流结构。高端计算应用对机群I/O系统提出了挑战性的需求。随着CPU处理能力和通信速度的迅速提高,I/O成为制约机群实际效率发挥的瓶颈,I/O瓶颈问题是当前机群面临的一大难题。机群文件系统作为解决机群I/O瓶颈的核心技术,其研究具有重要的意义。面向大规模机群的机群文件系统的体系结构应该是多数据通路多元数据通路的,即元数据处理与文件I/O分离,利用大规模网络存储系统来提供多条数据I/O通路,利用一组元数据服务器来提供多条元数据I/O通路。针对这种结构的机群文件系统,我们研究了其中的几个关键问题,包括元数据的分布问题,元数据的一致性和快速故障恢复问题,以及PB级机群文件系统的相关问题。本文的主要贡献在于:(1)提出一种高效的大存储空间的管理策略——Bitmap-Extent混合策略。针对PB级机群文件系统,打破了传统文件系统基于一个块设备的限制,提出将机群文件系统与物理存储分离的一种逻辑空间策略,从而解决了文件系统容量受限问题和存储扩展问题等;而且针对PB级存储空间管理,提出一种基于位图与extent链表相结合的大规模存储空间管理机制,以提高存储空间的管理效率。(2)提出一种基于粒度的动态元数据分布策略。元数据分布问题是决定非集中式元数据处理性能的关键问题。我们提出的基于粒度的动态元数据分布策略以提高元数据处理整体性能为目标,综合考虑元数据分布均衡度和文件系统层次结构关系两个因素对元数据处理整体性能的影响,按照D-D-F粒度来划分名字空间和分布元数据,实验结果表明在模拟真实环境的负载下其性能优于动态随机分布策略和动态根子树分布策略。(3)提出一种基于简化的两阶段提交协议的、故障后可快速恢复元数据一致性的分布式元数据处理协议。元数据一致性问题是影响分布式元数据管理的可靠性和高可用性的关键问题。为了解决元数据服务器之间的元数据一致性问题,我们将两阶段提交协议与元数据的处理协议结合起来,提出一种基于简化的两阶段提交协议的分布式元数据处理协议,在元数据服务器失效或客户节点失效时,能够快速恢复文件系统的元数据一致性,保证文件系统的可用性。(4)设计和实现了面向多用户多任务环境的、支持大规模机群系统的、面向海量数据存储的机群文件系统DCFS2。在机群文件系统性能评价方面,提出从峰值性能、稳定性能、系统规模扩展性、元数据服务器扩展性、存储设备扩展性和存储I/O带宽利用率六个性能评价指标。并用这六个指标对DCFS2的性能进行全面评价。我们的结果表明,DCFS2能够获得比GFS等文件系统更高的聚合I/O带宽和聚合元数据处理性能。