基于Hadoop的分布式网络爬虫设计与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:a630939408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、人工智能时代的到来,互联网上的网络信息日新月异,呈现爆炸式增长态势。传统单机网络爬虫已然无法满足要快速、高效、可靠地获取互联网上不断快速增长的海量网络信息资源的需求。近些年,随着Hadoop、Spark等大数据分布式技术的不断发展,这些技术为海量网络信息资源的存储和计算提供了可能。这里,本文设计和实现了一个基于Hadoop的分布式网络爬虫系统,旨在解决传统单机网络爬虫、一般分布式网络爬虫存在的不能适用于海量网页数据的应用场景、抓取网页速度慢、主节点单点故障等问题,使网络爬虫能够很好地适用于海量网页数据的应用场景,有效提高网络爬虫的网页抓取速度。本文主要工作内容如下:(1)研究了传统单机网络爬虫、Hadoop相关组件的基本原理和工作流程,重点对网络爬虫中的URL去重算法和网页去重算法进行了深入的研究。针对基于Bloom Filter的URL去重算法和基于Sim Hash的网页去重算法这两种单机去重算法存在的问题,结合Hadoop分布式编程技术,本文设计和实现了一种基于Sim Hash的分布式URL去重算法,该算法是基于网页内容和URL链接进行URL去重的,很好地提高了URL去重率,加快了爬虫系统抓取网页的速度,适用于海量网页数据去重的应用场景。(2)对基于Hadoop的分布式网络爬虫系统进行了详细的设计与实现,具体包括系统的需求分析、架构设计、工作流程设计、功能结构设计、分布式存储设计,以及利用HDFS、Map Reduce分布式编程技术实现系统的各个功能模块等。(3)在本地搭建了基于Hadoop HA高可用分布式集群测试环境,根据本文给定的测试方案分别对系统的功能、性能、可扩展性、高可用性、URL去重算法这5个方面进行了测试。通过对测试结果分析可以得到:本文设计的分布式网络爬虫系统满足了系统各模块功能、可扩展性、高可用性、URL去重的需求,同时该系统具有较高的爬虫效率和URL去重率,满足了系统的性能需求,适用于海量网页信息资源获取的应用场景。
其他文献
本文通过对英汉两种语言中缩略词的构成方式进行分类,分析对比二者的不同之处,有益于我们对语言现象中存在规律的研究和掌握。
随着生态环境的破坏,大量有害生物侵入,给红树林造成严重威胁。红树林病害主要为真菌病害,如炭疽病、煤烟病以及锈病等;危害红树林的害虫种类多,危害重,主要是食叶性的蛾类,
<正>近几年,职工劳动争议时有发生,经常出现职工为一两万元甚至几千元钱工资或补偿款打两三年官司的现象。俗话说,一场官司十年伤,有的官司虽然赢了,但最后职工疲惫不堪,物质
膜生物反应器(MBR)作为最有潜力的污水处理技术之一,已经在部分国家广泛的应用。膜生物反应器中的膜组件能够代替二沉池起到固液分离的作用,在污水处理及回用中表现出很多优
依据logit模型对我国就业风险进行度量和预测,结果发现:以1997年亚洲金融危机为比照,时下的金融信用危机导致我国2009-2010年城镇失业率大于6.454%的可能性几乎为100%。为化解
<正>国网邯郸市供电公司是国家特大型企业和河北南部电网骨干企业,担负着邯郸市区及16个县(市、区)的供电任务,有员工2073人,下辖16个县级供电企业。近年来,邯郸供电公司以"
称呼语作为简短而又敏感的语项,能直接体现一种语言的文化内涵。从社会语言学的角度,通过对中西称呼语两种称谓系统的分析比较,我们可以更加明确地揭示出两种不同文化背景下
目前在中国的跨国公司如何开展内部沟通?企业内部沟通部门如何凸现其影响力?本文以汶川地震为背景,通过对不同行业的13家大型跨国企业进行采访,力图呈现在中国大环境下企业内
在城市道路交通工程中,交叉口渠化设计可以有效地对道路的通行能力进行提升,但是由于交叉口渠化设计的特殊性,一直是设计中的难点。基于此,分析了道路平面交叉口存在的信号配
NOx是煤的燃烧过程中形成的主要污染物之一,它严重影响环境、气候和人类的健康,随着环境保护要求的提高,需要发展有效的脱硝技术来控制NOx排放。高级再燃技术是在再燃技术基