论文部分内容阅读
随着云计算时代的到来,存储系统数据量的增长越来越快,数据管理变得非常困难。如何有效地从大规模存储系统中检索数据,如何有效地对海量数据实施差异性的分层存储将直接影响存储系统的整体性能。文件系统元数据提供了重要的文件特征信息,元数据的有效分析处理将能够对系统管理提供重要支持。在存储领域,文件元数据相关的研究一直广受关注。近几年来,提出了一系列高效的元数据查询方法,元数据的分析也越来越受关注。文件系统的统计信息,如文件大小分布、文件生命周期和用户的访问行为,可以对文件系统设计、元数据查询和存储管理提供直接的支持。数据立方体模型广泛应用于数据库环境,是联机分析处理、决策支持和商务智能的重要工具。数据立方体可以从多个维度对数据进行全方位的统计和分析。利用数据立方体模型对文件系统元数据进行分析处理可以从多个角度反映文件系统的状态,为系统管理员做系统决策提供直接的支持。传统的数据立方体计算,属于I/O和CPU双密集型的任务,并且内存开销大。本文提出的元数据立方体(MD-CUBE)系统,采取数据压缩的方法有效缓解了数据立方体计算I/O密集和内存开销大的问题,并且利用基于多核的并行计算方法加速大规模存储系统元数据立方体的构建。通过收集分布式存储集群中的数十个存储节点的文件系统元数据,构建元数据立方体。实验结果表明,元数据立方体可以高效而准确地展示文件系统的总体状态,为元数据查询、元数据挖掘、存储管理、系统状态分析提供全面的支持。