论文部分内容阅读
虽然传统存储设备的性能和容量在过去几十年得到极大的发展,但是赶不上如今数据的增长速度,传统存储设备难以满足现有应用的需求。分布式文件系统对外提供大容量存储的统一接口,本文分析GPFS、Lustre和GFS等主流分布式文件系统,从性能、容量和扩展性等方面分析这些系统架构优势和不足。分布式文件系统的数据分散存放在各个存储节点,所有数据的访问需要借助元数据定位来完成,元数据管理成为文件系统的一个关键技术,本文分析各种元数据管理技术,提出一整体元数据管理优化方案。HDFS文件系统将所有元数据信息存放在元数据服务器内存中,首先,随着系统文件数量和容量的不断增加,单点的元数据服务器成为整个系统性能瓶颈。其次,元数据服务器的内存大小也影响系统扩展性,限制整个系统可以处理文件总量。为了使文件系统能够存储更多更大的文件,本文借鉴本地文件系统,在HDFS文件系统上提出并实现两层元数据管理系统。该元数据管理系统主要由主元数据服务器、从元数据服务器和DB Server组成。主元数据服务器负责对外处理客户端、数据存储服务器、主元数据服务器请求,同时将元数据信息同步到DB Server。DB Server负责持久化存储文件系统的元数据信息,响应主元数据服务器同步请求。当主元数据服务器失效后,对主元数据服务器的请求可以迁移到从元数据服务器上。元数据处理是整个文件系统重要组成部分,元数据处理性能影响整个系统性能。元数据缓存可以大大减少元数据服务器和DB Server的交互,减少系统响应时间,提高系统性能,因此元数据缓存是整个系统的必要组成部分。如何管理协调多级别、多个位置的元数据缓存是另一个关键技术。最后,本文对改进前后的HDFS文件系统进行了完整的测试,实验数据表明,本文设计并实现的元数据管理系统可以在有限、可接受范围的性能损失下,极大的提高整个系统可以存储处理文件数目,增加系统整体容量,增强系统容错性。