分布式在线图书爬虫系统的设计与实现

来源 :北京交通大学 | 被引量 : 8次 | 上传用户:sonim0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个互联网时代,电子化的产品已经深入到生活的方方面面,各种纸质的图书也同时被各种格式的电子书所取代。只需下载到手机或者其他移动终端里,即可进行阅读。但是在众多的图书之中如何进行选择,如何大规模获取图书资源,一个图书爬虫就显得非常重要。本论文设计和实现分布式在线图书爬虫系统,采用了Scarpy架构,并通过Redis作为URL缓存队列进行分布式扩展,使爬虫的效率大大的提升,对Redis进行高可用配置,提升系统高可用性,并能够完成增量爬取,保证对于图书的更新能够第一时间掌握。通过对图书网站的业务层面的分析和根据使用者的特点,完成需求分析,系统共分为调度器模块,URL爬取模块,流水线模块,监控模块等几个主要模块,作者对这几个模块进行设计,并完成了如下几个模块:(1)调度器模块,包括URL调度,URL去重等功能,主要实现了对URL按照安全哈希算法进行去重和按照URL的优先级进行爬取,并通过Redis实现了爬虫的分布式。(2)URL爬取模块,通过分配给它的URL,下载对应的页面,并对这个页面进行解析,对于提取到的URL,继续发送给URL缓存队列,并把页面里面的图片、文件、图书详细信息等各种要爬取的信息发送给流水线进行下一步处理。(3)流水线模块,对于URL爬取模块传递给它的信息进行规范化,通过不同的流水线进行存储,把图片、文件、图书详细信息这些数据传到不同的存储单元中去。(4)监控模块,对每个爬虫的状态进行监控,监控每个爬虫所爬取的URL数量,爬虫的运行情况,爬虫运行了多长时间,并监控每个爬虫所在设备的状态。通过功能验证表明新的Scrapy爬虫系统满足分布式图书爬虫系统的要求,能够对分布式图书网站进行有效的爬取,现在项目还是在测试阶段,下一阶段会对图书内容和图书的插图等信息进行监控,完成对在线图书网站的监控和甄别。从而给广大读者提供一个更为健康的阅读环境。
其他文献
研究了憎水剂对硅酸盐水泥基饰面砂浆1~180d泛白的影响,并对其1d的作用机理进行了探讨.结果表明:憎水剂可明显抑制硅酸盐水泥基饰面砂浆28d内的早期泛白,对其28~180d较长龄期
2010年刮起的旅游团购风,由于其模式新颖,价格低廉吸引了不少消费者。如今,旅游团购模式的热度已经降下来,如何提升消费者重复购买旅游团购的意愿被提上议程。为此,对如何增
企业作为推动社会经济发展的中坚力量,在自身经济活动中,不可避免地会带来环境、资源等社会问题,其社会责任会计信息披露受到社会各界的广泛关注。煤炭企业由于自身的特殊性,
<正>目前,电视真人秀节目已经成为了电视节目的一个主流形态,其为电视节目的发展带来了新的元素,进一步丰富了电视节目的内容。就当前电视真人秀节目的类型来看,除了选秀类、
网络技术与信息技术的发展使制造系统显现出了一些新的特点,在物流规划与集成方面应有别于传统的单个企业的情况。文章在分析网络环境下制造系统应解决的一些问题基础上,探讨
我国的艺术设计教育从建国前的启蒙阶段发展至今,可以被描述为一场自下而上的知识制度变迁和教育模式的混合重叠,我们一直在探索和进步中成长。在经济技术快速发展的数字时代
本文提出了一种新型精馏节能技术一塔段透热能量集成精馏技术。它是利用精馏塔精馏段作为热源,提馏段作为热阱,相互之间进行透热,在完成各自分离任务的同时,减少塔顶、塔底能
<正>在我国,广告摄影起步较晚,但随着时代的发展,数码摄影技术的普及和应用,广告摄影有了很大的进步,有很多优秀的广告摄影作品得到国际的认可,业界整体从业水平得到了很高的
和平新闻作为一种建立在和平研究和战争新闻批判基础上的新闻建构范式和理念,自上世纪90年代海湾战争之后逐渐成为一种学术思潮和新闻实践。进入新千年,由于新闻媒体在危机缓
随着社会发展,人们生活品质的不断提升,基于嵌入式多媒体技术得到了广泛的应用。其中基于导航与影音娱乐功能的车载多媒体系统近年来不断发展,已经成为汽车整体性能的重要参