论文部分内容阅读
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网页采集的系统。本文首先分析和研究了网格技术的基本特点,给出了相关的基本概念,并详细的介绍了网格项目开发工具包—Globus Toolkit,主要阐述了它的起源、系统结构以及应用Globus Toolkit进行网格项目开发的基本流程。然后,介绍并分析了网页采集技术的相关概念。介绍了网络爬虫的基本原理、网络爬虫的基本工作流程、网络爬虫的基本数据流程以及网络爬虫的工作模式分类。然后,给出了网页采集系统的一般评价指标,并分析了影响各项指标的具体因素,通过实验给出了采集带宽对网页采集速度以及网页采集错误率的影响。然后通过对网格技术的分析,给出了基于网格进行大规模网页采集的优点--易于获得较高带宽、易于资源的聚合和协同、易于信息的获取和发布以及良好的可扩展性。然后,通过对网页采集系统性能指标影响因素的分析,设计了一个基于网格的大规模网页采集模型。给出了一个四层的模型架构,分析了其基本工作模式,并结合动态分配和静态分配的工作方式,设计了一个改进的基于静态分配的交互模式。然后,给出了基于网格进行网页采集的任务划分机制,主要包括种子Urls的选取以及划分函数的设定。然后为该模型设计了一个两层的任务调度算法—广域网任务调度算法和局域网任务调度算法,并给出了各类数据的存储方式,并通过分析该模型,说明了基于该模型进行网页的采集可以获得较好的系统性能。最后,基于设计的模型,实现了一个基于网格的大规模网页采集系统,并通过实验,说明了相关理论的有效性。