分布式网络爬虫系统的设计与实现

被引量 : 25次 | 上传用户:ytcjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,互联网取得了飞速的发展,其所包含的信息量正在以指数型趋势高速增长,由此导致人们在这海量的信息中需要花费大量的精力来找寻自己需要的信息,因此人们对于随时随地获取自身所需求信息的渴望越来越强烈。正是基于这一情况,云计算获得了发展的契机。全球范围内包括Google、IBM、Apache和Amazon等大型公司在内,都对云计算投入了大量的人力、物力、财力。其中Apache站在用户的角度开发了Hadoop平台,是一个开源云计算框架。本文经过研究后开发的分布式爬虫系统就是在此框架下设计并且实现的。本文的目的主要是为了设计并实现一个基于Hadoop的分布式爬虫系统,通过这个系统,实现对大规模数据采集的任务。同时,该爬虫系统采集信息类型非常广泛,能够对全球多种语言的主流新闻网站进行信息采集。此系统采用分布式信息采集模式。另外,多种语言信息并没有统一保存在一起,而是进行了独立保存,这样能够为后面跨语言处理提供便利。本文主要研究了以下几个部分:首先,对云计算相关知识进行具体的介绍;其次,介绍了Hadoop分布式平台相关知识;再次,通过文献资料等方法调查了网络爬虫原理发展现状。上面的研究是本文的一个根本基础,正是在这个基础上,我们提出了基于Hadoop的分布式网络爬虫系统的设计方案。设计方案不仅包含了系统的设置流程,而且详细介绍了本系统的基本框架。另外,还包括了系统功能模块的划分以及各模块的Map/Reduce设计。为了进一步完善本系统,本文还对系统做出来更为具体的设计,使得系统更加稳定可靠。最后,对本文进行了总结,提出了文章今后进一步研究的方向。总之,本文的主要意义在于设计并且实现基于Hadoop的分布式爬虫系统,该系统不仅改变了以往爬虫系统效率低下的问题,而且使得系统的可扩展性得以提高。另外,信息采集速度的规模也逐步得到了提高,如此一来为“分布式跨语言信息获取和检索平台”的索引模块和信息处理模块提供有效数据。
其他文献
目的探讨支原体、衣原体感染与异位妊娠的关系,指导妇科临床抗生素应用。方法回顾性分析2011年1月~2012年12月于滨州医学院烟台附属医院收治的异位妊娠患者56例为试验组,取同
中国佛教的发展历经唐朝的巅峰之后,到五代末宋初这一时期逐渐走向衰微。针对禅宗内部乃至整个佛教界日益盛行的唯专己见、诃佛骂祖、“狂禅”、“乱禅”的弊端与风气,永明延
<正> 笔者应用鸡鸣散加减,治疗特发性浮肿6例,疗效满意。兹择2例介绍于下: 例1:陈××,男,55岁,工人。1990年5月16日初诊。患者素嗜酒肉,曾患有慢性支气管炎、慢性胃肠炎症,
我国高等职业教育正面临着巨大的挑战,一方面是应用型人才在社会需求中严重缺乏,另一方面是高等职业院校还不能完全打破传统的教育模式,自身定位也不够准确,这导致了高等职业
《鸿门宴》作为一篇千古名文,课本的注释详尽而细致,为学生的阅读提供了巨大的方便,但对文中“臣请入,与之同命”一句,课本上把“与之同命”解释为“和他拼命”,“之”指代项庄,这是
随着我国经济建设规模的不断扩大,用电量也与日俱增,由此而带来的用电安全问题也变的日益突出和严峻,电气火灾和人身触电等意外事故时有发生。虽然可以采取多种措施减少电气事故
目的:恶性多形性腺瘤在临床中并不多见,约占唾液腺肿瘤发病率的3.6%,占唾液腺恶性肿瘤发病率的12%。选择大连医科大学附属第一医院口腔颌面外科诊治的恶性多形性腺瘤病例,对唾液
目的:在对偏头痛相关文献整理的基础上,通过对活血化瘀法治疗偏头痛瘀血证患者的临床病例观察,以初步评价活血化瘀法在治疗偏头痛瘀血证上的临床疗效。方法:将48例符合纳入标准的
目的:观察孟鲁司特联合吸入糖皮质激素对咳嗽变异性哮喘的治疗效果,并对其安全性进行评价。方法:将40例咳嗽变异性哮喘患者,依照随机、双盲、安慰剂对照的原则,设计为试验组和对