面向多任务、多通道并行爬虫的技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenchenyaya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网以其信息生产的自主性、信息传播、获取的便捷性、地域覆盖的广泛性,辅以低廉的运行维护成本,自上世纪90年代中期开始大发展以来,迅速成为政务、商务、教育、娱乐等一系列重要社会活动的承载平台。互联网安全变得越来越重要,成为典型的非传统安全。针对传统搜索引擎无法提供服务定制以及数据更新慢的缺陷,该论文研制并实现了一个能够提供高度定制化、按用户需求组织资源、支持多通道信息获取技术的信息按需、及时获取平台。不同于传统的搜索引擎只有一个全局大任务,该系统需要处理不同用户下发的多种任务。每个用户只关心某几个网站,而且实时性要求比较高,在特定的时间内,需要对目标网站进行频繁抓取。该系统研究的是具有多任务管理和分配的并行爬虫,任务的目标通常包含多个网站,而且任务开始时间,下一次执行任务的时间都可以设定,多个监管任务又可能需要关心同一个网站。为了提高任务执行的并行性,该系统将任务拆分成更细粒度的任务分片进行管理分配,同时采用了一致性Hash算法提供爬虫的任务分配,该算法使得爬虫间负载尽量相等,同时最大限度地减小服务器增减时的任务分片重新分布。针对不同的数据来源,文中采用了多通道技术,根据每种数据源的特征,定制不同的分析方案。该论文还剖析了传统搜索引擎分配任务的方式及存在的问题,随后根据系统的特点,提出了新的比传统方法粒度更细的任务分配方式网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。
其他文献
随着多媒体通信时代的来临,流媒体技术受到前所未有的关注,并已成为研究热点。在流媒体广泛的应用领域中,能够提供交互式服务的视频点播已经成为最重要的网络多媒体业务之一
当今很多领域都涉及多类模式的识别问题,多类模式的识别具有广泛的应用性,同时也是一个难点。本文意在提出一种比较通用的多类识别算法。视频中的运动物体识别是计算机视觉领
集成了传感器技术、微电机系统技术、无线通信技术和分布式信息处理技术的无线传感器网络是一种全新的计算模式,是继因特网之后将对21世纪人类生活方式产生重大影响的IT热点
轨迹数据在智能交通、城市规划、个人行为模式分析等领域发挥着重要的作用。因此,很多组织都在收集和发布轨迹数据,然而,轨迹数据的直接发布会泄露个人隐私信息。随着因轨迹
纹理的方向性度量是近年来国内外一个比较活跃的研究领域,在模式识别、图像检索、计算机视觉、图像处理及计算机图形学等众多领域中起着非常重要的作用,有着广阔的应用前景。
船舶制造业是我国国民经济的支柱产业,目前我国船舶建造企业面临着由传统的造船模式向现代造船模式过度的发展阶段,生产效率与世界一流的造船企业相比还存在着差距。船舶制造属
近年来随着P2P系统的大量出现,P2P技术逐渐成为人们研究的热点。P2P技术目前主要应用在资源共享、分布式计算、协作系统、电子商务和以P2P为基础的深度搜索引擎等方面。其中,信
移动机器人是机器人学中的重要分支,对它的研究属于多学科相互交叉,相互渗透的前沿课题,因此具有很大的理论价值和广阔的应用前景。机器人导航代表一种高层智能。在避开障碍物的
本文介绍基于Visual.net2005+XML的移动机器人视觉导航仿真平台的设计与实现。首先讨论了该仿真平台的系统结构,描述了平台各部分的设计,其中特别介绍了仿真平台的相关接口。然
随着多媒体技术的发展,图像信息应用越来越广泛,人们对于图像等多媒体数据的需求也越来越强烈。图像具有丰富的高层语义,高层语义概念更符合人们对图像的理解,基于语义的图像