论文部分内容阅读
随着计算机应用的普及和互联网的发展,面对互联网海量的信息,如何找出自己感兴趣的内容越来越困难,搜索引擎应运而生。而当搜索引擎把海量网页信息获取之后,文件的存储、管理成为了制约其发展的关键一环。同时近年来伴随着集群技术的高速发展,分布式并行文件系统作为其核心组成部分,受到越来越多的关注。利用分布式并行文件系统为搜索引擎提供底层文件支持成为了一个较好的解决方案。但是常见的并行文件系统多为通用系统,不能很好地满足搜索引擎的特殊要求。本课题研究的目的在于通过对并行文件系统相关技术的研究,选择一个并行文件系统作为原型,针对搜索引擎的特殊文件操作需求,对具体算法进行探讨,最终实现一个并行文件系统,为搜索引擎提供文件存储和管理支持。本文通过对常见的并行文件系统进行对比,选择PVFS2作为原型系统,然后参考Google文件系统,分析了PVFS2的特点、系统结构及其原理,在此基础上进行了交叉备份和负载均衡的算法研究。本文的研究内容主要包括以下几个方面:(1)对比测试常见的几个并行文件系统,选择PVFS2作为系统开发原型。PVFS2具有高性能、易用性、对大文件良好支持的优势,并且是开源的。(2)研究了Google文件系统的系统结构、元数据管理、及其针对搜索引擎的特殊设计,将PVFS2与之对比,对PVFS2的优缺点进行分析,对其不满足搜索引擎的部分单独提出。(3)在PVFS2 MPI-IO之上实现了针对搜索引擎特殊文件需求的文件接口。PVFS2 MPI-IO利用ROMIO访问底层,对并行数据操作提供很好的支持。(4)对PVFS2存储节点分配算法进行了研究修改。在此基础上,提出了接口层次的交叉备份算法。有效利用备份文件,实现了文件系统的负载均衡算法。论文在算法研究的基础上实现了一个并行文件系统,并通过实验对算法进行了评测,评测结果证明算法设计达到了要求,系统能够为搜索引擎