基于Nutch的分布式爬虫研究与优化

被引量 : 0次 | 上传用户:zyqtc1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网上的数据正在迅速膨胀并变大,数据的采集速度越来越不能满足实际需要。爬虫系统需要抓取的网页数量巨大,如何高效、稳定地抓取网页非常重要。网页分布广及动态变化也使爬虫系统很难保持本地网页时新性,爬虫需要及时更新本地网页,避免网页失效。本文对Nutch爬虫进行改进,将改进后的Nutch和Hadoop分布式平台结合,设计高效、可靠的分布式爬虫系统。主要研究成果如下:1、Nutch和Hadoop分布式平台结合Nutch单机运行时,受限于单台机器存储及运算性能,且易发生单点故障,稳定性差。我们借助Hadoop分布式平台的优点,将Nutch运行的各个步骤提交给Hadoop,使用Map Reduce分布式计算完成,并将数据存储在HDFS上。我们分别对Nutch单机模式和Nutch分布式模式进行实验,实验结果表明:对比单机模式,分布式模式随着集群中节点的增多,Nutch爬行的性能会线性增长;数据安全性提高,可靠性增强,节点间负载均衡。2、提出Proxy IP动态更换模块在详细分析Nutch抓取网页数据的工作流程后,发现当一个网站有以IP为依据的访问检测机制时,Nutch大规模访问很容易被禁止。针对这个问题,提出Proxy IP动态更换模块,与Nutch系统结合,在Nutch爬行被禁止时,更换Proxy IP,使Nutch能继续爬行。经过测试,Nutch的爬虫被禁止爬行得到有效解决。3、网页更新预测优化Nutch有网页更新模块,但网页更新的参数需要人为设定,且对所有网页有效,很难适应海量网页的差异化。本文提出动态选择策略来预测网页更新周期。在网页更新历史数据不足时,通过基于Map Reduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其它网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模较准确地预测每个网页的更新周期。实验表明,动态选择策略节约了爬虫的抓取资源,且能较准确预测网页的更新周期。
其他文献
会计工作是社会主义市场经济大厦的一块重要基石,市场经济越发展,对会计工作的职业道德水准要求越高。会计职业道德建设是社会主义思想道德体系建设的重要组成部分,是社会主
目的:建立一种以0.4U/ml为临界值的巨细胞病毒(CMV)特异性抗体IgG的检测方法。方法:用美国食品与药品监督局(FDA)认证的标准品标定临界值标准,以常规间接酶联免疫测定方法(EL
幽默风趣是电视访谈类节目主持人应该具备的一项基本素质,主持人如何与嘉宾和观众展开良性互动,化解冲突,适时引导,都考验着主持人的主持控场能力,节目主持人一旦具备了幽默
政府审计与注册会计师审计资源整合是发展的必然。从目前国际上的做法来看资源整合是比较通行的方法,美国、英国和澳大利亚等国家都存在政府审计部门聘请社会审计的详细规定
企业筹资,是指企业作为筹资主体根据其生产经营、对外投资和调整资本结构等需要,通过筹资渠道和金融市场,运用筹资方式,经济有效地筹措和集中资本的活动。筹措资金是企业经营
清代邓石如在书法篆刻艺术上的成就,存在着个人的精神品质及社会的、物质的主客观条件和工具的选择、用笔、及取法等艺术内理上的诱发因素两个必然性。
免疫力是人体重要的生理功能,“运动、营养、免疫”之间有着复杂的关系,了解它们的关系,对掌握营养、运动在整个机体的功能与对外环境的适应能力方面有着重要的价值,将帮助人
<正>同期资料又称同期文档、同期证明文件,是指根据各国和地区的相关税法规定,纳税人对于关联交易发生时按时准备、保存、提供的转让定价相关资料或证明文件。同期资料准备、
<正> 商业心理学作为近代新兴的科学日益引起我国学者的关注和研讨。本文就其源史问题说点所见。 商业心理学的萌芽在我国可追溯到秦汉时期。众所周知,两次社会分工之后,逐渐