基于Scrapy的分布式爬虫系统的设计与实现

来源 :湖北民族学院学报(自然科学版) | 被引量 : 0次 | 上传用户:nhhwhm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.
其他文献
<正>实现档案实体的信息化,可以对档案信息资源进行分类、分析、提取和加工,能提高档案管理效益。在新形势下,要求事业单位必须改变过去单一的传统模式,进行信息化建设。一、
<正>改革开放以来,在中国共产党的领导下,中国励精图治,发展经济、改善民生,人民切实享受到经济增长所带来的实惠。但是,伴随着经济的发展,特别是经济的快速增长,中国也面临
现阶段我国经济处于结构化调整和发展转型的新常态时期,经济增速不断放缓,零售行业受经济低迷、市场竞争加剧等因素的影响,所面临的形势非常严峻。与此同时,电子商务的蓬勃发
改革开放二十多年来,我国社会主义建设取得了巨大成就,对世界上社会主义国家的发展提供了一些经验。越南热情地关注和学习中国经济和政治改革的经验,是中国在东南亚地区最忠
鹿血作为传统的中药材,具有广泛认可的药用价值。传统的理化方法无法将鹿血和其他动物血作出准确鉴定,为了保证鹿血药材、鹿血产品的真实性,我们引入了分子生物学中的聚合酶
会议
附带民事诉讼案件的审理在某种程度上困扰刑事案件的审判,而搞好附带民事诉讼审判的关键是准确把握其自身的本质内涵。本文对附带民事诉讼的本质特征及其赔偿原则进行了新的
随着物流系统的信息化、现代物流的快速发展,物流市场间竞争也愈演愈烈,运输、仓储、配送一体化趋势日益明显,运作上也会出现一些风险。如何将仓储与配送有效进行信息优化,降
作为小学语文教材的关键组成部分,插图能够充分反映出教材的内涵,是一种形象化的课程资源。插图的灵活应用,不仅有助于激发学生的学习兴趣,还具有进一步培养学生的观察、思维
随着教育教学的深化改革,对于小学语文教材的编写也提出了更多的要求,为了有效激发学生的语文学习兴趣,现在各版本的小学语文教材中都有着各种各样的插图,由于插图更加的直观
一、“烦”与“怕”———法官对媒介的负面心态新闻与司法的关系,是这两大领域历久不衰的话题,中外莫不如是。改革开放以来,我国这两大领域的成功合作早已有目共睹,因此本文不将