云数据采集系统中云爬虫子系统的设计与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:kfanliang127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和数据挖掘技术的高速发展,因特网上海量的网页数据价值愈发凸显。现有的网络爬虫技术对于网页数据采集问题存在着不易使用、不易定制等不足。本文把云计算技术和网络爬虫技术相结合,基于软件即服务(SaaS)的服务模式,设计和实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自身的需求在云爬虫子系统提供的独立的爬虫集群服务上便捷地执行数据采集任务。为了实现分布式爬虫与SaaS模式有机结合,本文主要研究了云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,本文提出了一种使用etcd辅助的爬虫节点管理方案,该方案通过规定子系统中所有爬虫节点一系列共同的行为,使得各个集群的爬虫节点可以混合部署相互替换。该方案支持爬虫节点配置运行时更新,支持对于各个爬虫集群在运行时动态增减节点,以及集群故障节点及时感知,保证爬虫集群服务的可靠性。在链接抓取任务调度方面,本文提出了一种基于jump consistent hash算法改进的调度方案OJCH。OJCH使用jump consistent hash算法计算节点,得到与jump consistent hash算法类似的性能表现,并利用故障节点再散列的方法克服了jump consistent hash无法处理任意节点发生故障的缺点,通过了实验的验证。此外本文还提出了一个支持周期性链接抓取任务的去重方案。此后,本文给出了云爬虫子系统的整体设计方案和各个功能模块的详细设计和实现,包括集群控制模块、网站服务模块、任务队列模块、任务调度模块、任务处理模块和节点管理模块。然后对实现的云爬虫子系统根据相关的测试用例进行测试,验证了云爬虫子系统的各项功能。最后对全文进行总结。
其他文献
随着社会的不断发展,人才需求目标的调整,高校进行转型升级的同时,高校辅导员队伍建设也应该与时俱进。不断地实现专业化、职业化目标,全面提高高校辅导员的工作水平。文章将
为促进可再生能源的发展,对严寒地区某示范工程进行土壤源热泵-太阳能供能系统进行设计,得出所需的太阳能集热面积.与传统常规能源系统相比,计算出本示范工程土壤源热泵-太阳
目的了解江西省村卫生室的基本设施,为今后卫生行政部门合理配置农村卫生资源提供科学依据。方法采用普查方法对江西省所有村卫生室进行调查。结果平均每所业务用房面积80.63
目的对半夏白术天麻汤与温胆汤联合治疗高血压的临床效果进行分析。方法本次研究选取在我院就诊的134例高血压患者,按照随机分组的方式将其分为两组,研究组(n=67例)和参照组(
美术新课程标准的颁布与实施,使设计课成为初中美术教学的重要内容。基于此,初中的设计学习领域强调对现代设计基础、传统工艺美术知识与技能的学习,初中设计教学内容应从学生的
电信客户信用分析与预测,对于电信运营商在激烈竞争环境下,最大程度的在竞争活动中立于不败之地,具有重要意义。本文采用了SOM聚类算法和用传统经验对客户信用等级评分评级来
工艺美术专业是一门实践性很强的专业,具体到学生的培养方面,专业的系统化建设,有着十分重要的作用。在当前,学校专业设置不断与市场人才需求接轨的形势下,对工艺美术专业的
制造企业的智能订单决策支持系统是实现智能制造不可或缺的组成部分,它的发展与推广对提高企业决策效率、减少决策成本与减少错误决策等方面有着重要意义。智能订单决策支持系统是企业解决由人们个性化需求所导致面向订单生产(MTO)模式下订单接受问题唯一途径。尽管订单决策支持系统经过多年的发展,但其仍然存在效率低下与无法很好的适应较多数据量的情况的问题,其决策效率仍然有着提升空间。本文采用网络爬虫技术、LSTM
从深圳市2011年世界大学生运动会专业气象服务需求分析入手,建立大运会专业气象服务系统化、个性化的系统设计思路,从流程设计、功能特征、数据库建设等方面阐述大运会专业气
音乐作为一门艺术学科,可以表达情感,让人们获得美的体验,可以提高我们对美的感受,而且在小学生身心健康的发展层面有着重要的作用,合唱作为小学里面不可缺少的一种校园文化,