基于Scrapy框架的分布式爬虫系统设计与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:Ericchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网迅速发展,互联网数据量爆炸式增长,数据形式和内容丰富多样。人们已经认识到海量数据背后巨大的商业价值和研究意义,同时海量的数据也给用户获取和挖掘信息带来一定的挑战,因此如何快速、有效地做数据采集以及从海量数据中抽取有效信息是一个迫切需要解决的问题。网络爬虫获取数据方便快捷,能够帮助我们高效的获取大规模数据,但面向中小型网站的网络爬虫系统往往具有一定的局限,例如单机性能抓取速率的太慢,稳定性有待提高,未能实现分布式抓取来提高速度;另一方面大多数成熟的爬虫程序都是尚未开放,需要付费才能够使用,因此对于爬虫系统深度定制的研究具有很重要的意义。基于上述问题,本文针对海量网页信息的获取及管理的问题,设计并实现一种基于Scrapy框架的轻量级分布式爬虫系统。本文在Scrapy框架基础上结合Redis和Elasticsearch搜索工作来对海量的网页信息进行存储和管理,克服了单机爬虫对数据管理的局限性。本文所做的工作主要有以下几点:(1)针对传统的内存去重策略,实现了基于Redis的布隆过滤器去重方法,将URL字符串表示成二进制向量,降低了字符串数据的空间占用率并且提高去除重复数据的效率,同时在多节点的情况下仍可以保证良好的去重效果。(2)针对异步加载的动态页面采用了模拟浏览器的加载方式,保证在多数情况下能够完整加载动态网页并获取网页的内容。(3)对Scrapy的框架的调度器,数据管道以及下载器等组件进行定制开发,使系统在分布式环境下完成数据地抓取和存储任务。(4)对抓取数据进行统计和分析。本文首先结合Elasticsearch将爬虫获取到的数据进行实时搜索,其次根据主题词统计结果生成词云分布图进行展示,最后提出数据质量优劣的评价指标并使用层次分析法确定评价准则的权重进行计算,得出数据评价结果。
其他文献
文章为作者于2015年9月24日在湖南宁远九疑山舜帝陵召开的"舜帝与依法治国"学术研讨会上发言的录音整理。
目的:促进对于血管性痴呆(vascular dementia, VD)临床特点的认识,提高诊断水平。方法:对30例VD患者、30例无明显认知功能障碍的脑梗死患者和30例正常人,应用简明精神状态检查量表(M
21世纪是生物的世纪,生物技术对一个国家科技的整体水平有着重要的影响。而创新型人才是国家科技发展的必备要素。高中生物学科具有理论性、实践性的特点,是全面培养学生创新
党的十九大报告提出的乡村振兴战略为解决贫困地区空心化,实现乡村社会的跨越式发展提供了重要契机。依托于河北省阜平县14个空心村的调查数据,在分析村庄空心化率时空分布特
ATLAS探测器是目前高能物理中规模最大的实验LHC的一个重要组成部分。ATLAS探测器有着庞大的数据传输需求,尤其是从具有辐射环境的探测器前端到后端up link方向上。针对此需
随着社会的转型和改革的深化,女性社会组织在参与社会管理和服务基层妇女的舞台上扮演着日益重要角色。宁波市女性社会组织成长较快,数量逐年稳中有增,参与社会服务领域较广,
<正>算是懒,也可美其名曰忙。近来不仅连四年未曾间断的日记不写,便是最珍贵的天辛的遗照,置在案头已经灰尘迷漫,模糊的看不清楚是谁。朋友们的信堆在抽屉里有许多连看都不曾
期刊
改革开放以来,中华文化在历经否定质疑到首肯认同的价值取向之调整后,迎来了新世纪关于其"复兴"的文化诉求。跳出学术研究之对象的身份格限,从学理化的思辨,走向鲜活的大众生活
城市园林绿地的养护管理是提升城市品位和城市形象的重要的途径之一,随着城市建设的不断发展,长沙市的园林绿化事业飞速发展,城市园林绿地面积大大增加。通过调查发现,目前长
目的:本研究旨在研究催产素受体(oxytocin receptor,OXTR)基因单核苷酸多态性片断rs2254298和rs237911与儿童孤独症的关系,为儿童孤独症的发病机理、早期防治提供理论依据。