论文部分内容阅读
随着数据规模的不断扩大,分布式文件系统以其海量数据支持、高可用、大规模并发访问和并发处理能力等优势获得越来越多的关注。目前,分布式文件系统大多基于文件目录结构管理文件系统存储的文件,用户可以通过文件系统内置的命令行接口和REST(Representational State Transfer)接口,按照文件目录结构快速访问目标文件。以海量照片数据为例,每个照片往往具有“拍照时间”、“地点”、“照片内容描述”等相关属性,如果用户需要从拍照时间、地点或照片内容描述等属性检索与该属性关键字相关的照片,基于文件目录结构来管理海量照片文件就很难满足用户非文件目录结构属性的文件检索请求。本文在课题组海量小文件分布式文件系统SMDFS2.0(Small files Distributed File System 2.0)研究成果基础上,针对分布式文件系统浏览模式单一的问题,首先在文件元数据结构中添加文件特征属性字段,建立文件特征与文件索引映射关系——特征倒排索引表,提出了与文件元数据绑定分布的海量小文件特征倒排索引技术。与元数据绑定分布的特征倒排索引技术的思想为文件元数据分布在哪一个节点,就在该节点上构建文件特征倒排索引表。同时基于跳表结构对倒排索引表管理,有利于从多维度检索和定位用户关心的文件。SMDFS以元数据簇为单位对元数据进行管理和分布。随着文件的创建和删除,元数据簇会发生分裂和合并操作,并重新分布。元数据簇的重分布过程必然对文件特征倒排索引表产生影响。本文提出了文件特征倒排索引表的动态分裂与重构技术,实现了特征倒排索引表的高效重分布,保证了系统的高可用性。在SMDFS2.0的基础之上,实现了特征倒排索引表与文件元数据绑定、特征索引元数据动态分裂与重构的分布式海量小文件多维度浏览系统SMDFS3.0。本文包含三组对比测试,分别为文件读写能力测试、文件特征检索能力测试和特征索引集中式维护与分散式维护对比测试。测试结果表明,SMDFS3.0与SMDFS2.0的文件读、写性能相当,时间维度检索性能相比SMDFS2.0提升231倍,城市维度检索性能相比SMDFS2.0提升52倍,分散式索引管理技术相比集中式索引管理技术在最大文件存储性能上和文件检索性能上更具有优势。