搜索引擎中并行文件系统的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zoujing0505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及和互联网的发展,面对互联网海量的信息,如何找出自己感兴趣的内容越来越困难,搜索引擎应运而生。而当搜索引擎把海量网页信息获取之后,文件的存储、管理成为了制约其发展的关键一环。同时近年来伴随着集群技术的高速发展,分布式并行文件系统作为其核心组成部分,受到越来越多的关注。利用分布式并行文件系统为搜索引擎提供底层文件支持成为了一个较好的解决方案。但是常见的并行文件系统多为通用系统,不能很好地满足搜索引擎的特殊要求。本课题研究的目的在于通过对并行文件系统相关技术的研究,选择一个并行文件系统作为原型,针对搜索引擎的特殊文件操作需求,对具体算法进行探讨,最终实现一个并行文件系统,为搜索引擎提供文件存储和管理支持。本文通过对常见的并行文件系统进行对比,选择PVFS2作为原型系统,然后参考Google文件系统,分析了PVFS2的特点、系统结构及其原理,在此基础上进行了交叉备份和负载均衡的算法研究。本文的研究内容主要包括以下几个方面:(1)对比测试常见的几个并行文件系统,选择PVFS2作为系统开发原型。PVFS2具有高性能、易用性、对大文件良好支持的优势,并且是开源的。(2)研究了Google文件系统的系统结构、元数据管理、及其针对搜索引擎的特殊设计,将PVFS2与之对比,对PVFS2的优缺点进行分析,对其不满足搜索引擎的部分单独提出。(3)在PVFS2 MPI-IO之上实现了针对搜索引擎特殊文件需求的文件接口。PVFS2 MPI-IO利用ROMIO访问底层,对并行数据操作提供很好的支持。(4)对PVFS2存储节点分配算法进行了研究修改。在此基础上,提出了接口层次的交叉备份算法。有效利用备份文件,实现了文件系统的负载均衡算法。论文在算法研究的基础上实现了一个并行文件系统,并通过实验对算法进行了评测,评测结果证明算法设计达到了要求,系统能够为搜索引擎
其他文献
本文对径向基(RBF)神经网络的各种串行在线学习算法进行了系统的分析研究,根据RBF网的原理与串行算法的特征提出了把分布式扩展卡尔曼滤波器(Decoupled Extend Kalman Filter
在现代社会中,随着互联网和无线互联网的发展,各种移动信息终端设备(如PDA, HPC)得到了广泛的应用,联机手写输入日益成为一种重要的输入手段。联机连续手写体字符识别是手写
人脸和掌纹识别是具有很高理论和应用价值的研究课题。掌纹中所包含的信息远比一枚指纹所提供的信息丰富,利用掌纹的线特征、点特征、纹理特征、几何特征完全可以确定一个人
基于图像序列的目标跟踪作为计算机视觉领域的一个重要而富有挑战的课题,得到了广泛而深入的研究,然而长期以来大部分工作都集中在对人或者类似汽车飞机的机动目标的跟踪上。
大多数嵌入式系统的开发,由于目标机和宿主机使用的是不同体系结构的处理器,因此无法在目标机上运行和测试目标程序,通常需要建立一个交叉编译环境,将编译后的可执行代码下载
设计模式和应用框架都是软件复用的方式,框架可看作是一系列具体化的设计模式的组合。Struts框架是工作在J2EE平台上WEB层的应用框架。虽然对Struts框架的运行机制和控制器的
遥操作机器人系统被广泛的运用在各行各业,而基于Internet的遥操作机器人系统由于方便操作、控制等优点被大量采用。文章从Internet的特性出发,认为时延是由网络产生的。不同
人耳具有结构稳定丰富、不受面部表情的影响、更容易采集、更容易为人接受、不容易欺骗等优点,因此人耳识别正在成为生物特征识别领域中的又一热点。目前人耳识别正处于起步
社区发现作为一种重要的网络分析技术,能够挖掘出网络中具有某些共性的节点集合。研究网络中的社区对理解整个网络的结构和功能起到至关重要的作用,它不仅可帮助我们分析及预
企业应用软件必须具备快速重构的能力以适应业务环境的频繁变化,而“灵活可变的业务模型+代码生成器”是实现系统敏捷性的一个有效手段。本文首先基于重构的思想,以业务对象