基于网格的大规模网页采集技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：avim03

【摘要】

：

VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网

【作者】

：

杨超

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

分布式系统网格网页采集网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网页采集的系统。本文首先分析和研究了网格技术的基本特点,给出了相关的基本概念,并详细的介绍了网格项目开发工具包—Globus Toolkit,主要阐述了它的起源、系统结构以及应用Globus Toolkit进行网格项目开发的基本流程。然后,介绍并分析了网页采集技术的相关概念。介绍了网络爬虫的基本原理、网络爬虫的基本工作流程、网络爬虫的基本数据流程以及网络爬虫的工作模式分类。然后,给出了网页采集系统的一般评价指标,并分析了影响各项指标的具体因素,通过实验给出了采集带宽对网页采集速度以及网页采集错误率的影响。然后通过对网格技术的分析,给出了基于网格进行大规模网页采集的优点--易于获得较高带宽、易于资源的聚合和协同、易于信息的获取和发布以及良好的可扩展性。然后,通过对网页采集系统性能指标影响因素的分析,设计了一个基于网格的大规模网页采集模型。给出了一个四层的模型架构,分析了其基本工作模式,并结合动态分配和静态分配的工作方式,设计了一个改进的基于静态分配的交互模式。然后,给出了基于网格进行网页采集的任务划分机制,主要包括种子Urls的选取以及划分函数的设定。然后为该模型设计了一个两层的任务调度算法—广域网任务调度算法和局域网任务调度算法,并给出了各类数据的存储方式,并通过分析该模型,说明了基于该模型进行网页的采集可以获得较好的系统性能。最后,基于设计的模型,实现了一个基于网格的大规模网页采集系统,并通过实验,说明了相关理论的有效性。

其他文献

基于多Agent的实时数据库故障排除技术

目前世界上所有的数据库系统都没有提供故障排除的功能,全是容错概念,鉴于国内外技术现状归根结底都是容错技术,不可避免存在两个问题,一是允许故障共存,无法预防故障的发生,

学位

实时数据库容错故障排除常态标准

无线局域网入侵防范及响应系统

使用IEEE 802.11协议的无线局域网(Wireless LAN, WLAN)当前已经有了广泛的市场应用,但是由于无线网络开放性的特点和802.11协议自身存在的缺陷,无线局域网的安全性一直受到

学位

无线局域网无线入侵检测未授权访问点监听

真实感流体模拟算法的研究

通过图形学的方法描述自然界的各类现象一直以来都是计算机图形学研究者所关注的重点,而对动态流体的模拟问题更是其中的难点研究问题。从流体模拟方法的发展进程来看,经典几

学位

流体模拟粒子系统N-S方程SPH方法

基于字形的英汉机器音译改进研究

机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,

学位

机器音译EMEMD半指导机器学习

基于文本聚类的新闻信息聚合的研究

Internet的不断发展，网上新闻信息的获取已成为人们知识来源的主要途径。但是，随之而来的“信息爆炸”，使得人们通过搜索引擎或者浏览网页很难从大量的地搜索结果中获取方便的、

学位

信息获取文本聚类信息聚合后缀树算法新闻信息

桌面搜索引擎的研究与实现

随着搜索技术的发展，纯粹的web搜索由于受到IE的束缚，因而表现出应用能力偏低，而基于桌面的搜索则相当于一个“客户端+数据库”这样的应用模型，尤其加入了划词搜索的功能，这也使得

学位

搜索引擎中文分词网页排名索引数据库解析器

基于网络数据包的邮件信息获取系统实现技术研究

学位

面向无线传感器网络的UVM验证方法应用研究

随着SoC系统规模的持续扩大,系统验证复杂度也随之增加。传统的验证方法很难进行完备的验证,验证技术已成为制约SoC技术发展的瓶颈。为缩小与设计制造的差距,一系列高级的验

学位

UVM验证方法学验证平台无线传感器网络MAC

基于矢量化特征的金融票据类型识别系统研究

近几年来，无论是国有商业银行，还是股份制商业银行，对银行业务电子化处理都给予了前所未有的重视，电子化集中处理成为各银行建设的重要目标，实现对票据的电子化和自动化处理己成为

学位

金融票据类型匹配银行业务票据识别系统矢量化特征图像处理模式识别

软件需求复用的研究及其工具的实现

在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软

学位

对象类模板需求复用类库

基于网格的大规模网页采集技术研究

与本文相关的学术论文