基于Hadoop的分布式网络爬虫技术的设计与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:nene7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。
其他文献
近期美国睡眠医学会2019年新版《气道正压通气治疗成人阻塞性睡眠呼吸暂停》临床实践指南发布,引起了巨大反响。指南根据证据级别、风险获益比、患者评价和倾向性,以及医疗资
中小企业为中国经济发展贡献了卓越力量。但是,我国中小企业在发展过程中存在一系列的问题,导致他们在资本市场屡屡受挫。从中小企业的融资现状出发,剖析了中小企业融资难问
针对矿井通风机的高稳定性与实时性的控制要求,设计了一套基于S7-300 PLC与组态王组态软件的矿井通风机远程监控系统。该系统采用变频控制方式实现了对2台通风机和4个风门的
<正>本文通过对我国医疗责任保险发展历程的回顾,分析了当前制度运行中面临的突出问题,提出了创新制度体系的路径。20世纪90年代起,我国在个别地区进行了医疗责任保险试点,近
人物传记是历史的另一种呈现形式。我们可以通过阅读传记了解一个人的生活,接触他的思想,进而了解他所生活的时代,以此得到启发。本实践报告以作者的翻译项目理雅各的手稿Not
随着云计算的到来,相应的大数据和物联网也随之兴起。然而网络信息安全的形势非常严峻。现在网络服务器都是集群式分布,很多服务器集中起来一起进行同一种服务,实现负载均衡,
<正>最近几个月来,西太平洋海域骤然升温的军事演习最突出的一个特点是:潜艇战与反潜战色彩浓厚——不论是韩美的日本海联合演习,还是韩国黄海陆海空三军联合演习,都将潜艇角
1过去六年工作回顾$$过去六年,是我市发展历程中极不平凡的六年。六年来,面对艰巨繁重的改革发展稳定任务,我们以党的十七大和十八大精神为指导,认真贯彻落实省委省政府决策部署,
期刊
“五四”乡土文学是具有浓郁抒情性的文学,它表现了乡土作家复杂的情感:对故土的热爱、对广大农民的同情、对农民自身弱点的愤怒。在抒情方式上,“五四”乡土作家继承了我国传统
通过开展预警实证表明,该方法在规范预警工作组织体系以及提升预警效能等方面能够发挥切实有效的作用,是一种开展区域金融风险预警行之有效的方法.