基于网格的大规模网页采集技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:avim03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网页采集的系统。本文首先分析和研究了网格技术的基本特点,给出了相关的基本概念,并详细的介绍了网格项目开发工具包—Globus Toolkit,主要阐述了它的起源、系统结构以及应用Globus Toolkit进行网格项目开发的基本流程。然后,介绍并分析了网页采集技术的相关概念。介绍了网络爬虫的基本原理、网络爬虫的基本工作流程、网络爬虫的基本数据流程以及网络爬虫的工作模式分类。然后,给出了网页采集系统的一般评价指标,并分析了影响各项指标的具体因素,通过实验给出了采集带宽对网页采集速度以及网页采集错误率的影响。然后通过对网格技术的分析,给出了基于网格进行大规模网页采集的优点--易于获得较高带宽、易于资源的聚合和协同、易于信息的获取和发布以及良好的可扩展性。然后,通过对网页采集系统性能指标影响因素的分析,设计了一个基于网格的大规模网页采集模型。给出了一个四层的模型架构,分析了其基本工作模式,并结合动态分配和静态分配的工作方式,设计了一个改进的基于静态分配的交互模式。然后,给出了基于网格进行网页采集的任务划分机制,主要包括种子Urls的选取以及划分函数的设定。然后为该模型设计了一个两层的任务调度算法—广域网任务调度算法和局域网任务调度算法,并给出了各类数据的存储方式,并通过分析该模型,说明了基于该模型进行网页的采集可以获得较好的系统性能。最后,基于设计的模型,实现了一个基于网格的大规模网页采集系统,并通过实验,说明了相关理论的有效性。
其他文献
目前世界上所有的数据库系统都没有提供故障排除的功能,全是容错概念,鉴于国内外技术现状归根结底都是容错技术,不可避免存在两个问题,一是允许故障共存,无法预防故障的发生,
使用IEEE 802.11协议的无线局域网(Wireless LAN, WLAN)当前已经有了广泛的市场应用,但是由于无线网络开放性的特点和802.11协议自身存在的缺陷,无线局域网的安全性一直受到
通过图形学的方法描述自然界的各类现象一直以来都是计算机图形学研究者所关注的重点,而对动态流体的模拟问题更是其中的难点研究问题。从流体模拟方法的发展进程来看,经典几
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,
Internet的不断发展,网上新闻信息的获取已成为人们知识来源的主要途径。但是,随之而来的“信息爆炸”,使得人们通过搜索引擎或者浏览网页很难从大量的地搜索结果中获取方便的、
随着搜索技术的发展,纯粹的web搜索由于受到IE的束缚,因而表现出应用能力偏低,而基于桌面的搜索则相当于一个“客户端+数据库”这样的应用模型,尤其加入了划词搜索的功能,这也使得
学位
随着SoC系统规模的持续扩大,系统验证复杂度也随之增加。传统的验证方法很难进行完备的验证,验证技术已成为制约SoC技术发展的瓶颈。为缩小与设计制造的差距,一系列高级的验
近几年来,无论是国有商业银行,还是股份制商业银行,对银行业务电子化处理都给予了前所未有的重视,电子化集中处理成为各银行建设的重要目标,实现对票据的电子化和自动化处理己成为
在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软