基于Scrapy框架的分布式网络爬虫的研究与实现

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户：aaaj199054

【摘要】

：

针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算

【作者】

：

华云彬匡芳君

【机构】

：

温州商学院信息工程学院

【出处】

：

智能计算机与应用

【发表日期】

：

2018年05期

【关键词】

：

网络爬虫分布式 Scrapy Redis

【基金项目】

：

国家自然科学基金（61402227）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、Mongo DB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫。最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略。

其他文献

“白改黑”工程路面结构组合设计探讨

我国在上个世纪80年代和90年代修建的水泥混凝土路面有一部分已接近或超过设计年限，没到设计年限的路面也由于设计、材料、施工质量以及交通量剧增、汽车严重超载等因素，造成路

期刊

“白改黑”工程路面设计方案

不同加碘时间及碘盐浓度变化人群甲状腺功能亢进流行病学研究

目的研究不同加碘时间,不同碘盐浓度变化人群甲状腺功能亢进(简称甲亢)流行病学状况及普遍食盐加碘(USI)对甲亢发病率的影响.方法四井子乡为碘营养正常地区,加碘时间早,USI前

期刊

甲状腺功能亢进症发病率食盐碘化加碘时间碘盐浓度流行病学hyperthyroidismincidenceUSI

补碘对缺碘机体血清超氧化物歧化酶水平的影响

目的：探讨补碘对缺碘机体抗氧化能力的影响。方法：观察了缺碘地区人群口服碘油前后外周血超氧化物歧化酶（SOD）水平的改变。结果：补磺之前，缺碘机体的血清SOD水平高于正常对照组水平

期刊

碘缺乏补碘超氧化物歧化酶甲状腺肿大Iodine deficiency lodine supply SOD

谈计算机在档案管理中的应用

计算机技术的飞速发展，促进了计算机在档案工作中的迅速应用和普及，十年前还不为人所知的Internet，现在已悄然进入了档案馆；十年前被视为神秘之物的电子文件，已在办公自动化领域大

期刊

计算机应用档案管理

关于沥青砼路面常见病害的防治

针对于目前沥砼路面常常出现开裂、泛油、松散、坑槽等常见病害，从原材料，施工过程、施工工艺、材料组成设计、规范陈旧等不同方面提出了改进意见和措施。

期刊

沥青砼配合比设计拌合温度施工质量控制

驱虫药的控释系统及其应用与评价

驱虫药的控释系统及其应用与评价肖田安（广东省兽药监察所广州５１０２３０）长期以来，无论是寄生虫性疾病还是在寄生虫病流行季节，口服驱虫药是控制反刍动物胃肠道寄生虫感染的重要途径。Ｐｒｉｃｈａｒｄ等提

期刊

驱虫药控释系统应用评价缓释制剂

基于运动和散焦线索的深度提取研究

随着立体图像在社会各个领域的发展与普及,三维资源的需求逐步提升,而将二维图像转换为三维图像是解决三维资源稀缺的重要手段。二维图像三维化技术的关键在于深度信息的获取。分析了两种重要的深度提取线索,运动线索和散焦模糊线索。为了弥补这两个线索在深度提取的局限性,提出了两种线索的深度融合策略。实验结果表明,这两种线索采用分段线性融合的方法能提高生成深度图的质量。

期刊

深度提取运动线索散焦线索深度融合策略Depth Extraction Motion Cue Defocusing Cue Depth Fusion

美术教学：不再让技法成为学生的障碍

美术学科是学生欣赏美、创造美的学科，但在学生绘画过程中常常会由于绘画技巧的缺乏，影响和制约着对美的表现力度。教师可以借助多媒体以直观展示克服绘画困难的信心；借助示范化

期刊

直观展示榜样作用示范作业美术素养

《视觉语言周刊》简介

美国印第安那大学视听中心设有国际视觉文化协会(International Visual Literacy Association,缩写IVLA)的办事处。协会的宗旨,是为了向视觉通信和视觉文化的各个不同领域提

期刊

印第安那大学文化协会丹佛一九

外语听力材料的收集、整理和使用

听力训练是外语教学中重要的一环,但现成的材料数量有限,而且内容和深度又不适合需要。因此,针对学生具体情况,利用电教器材进行收集和整理,便成为外语电教中一项必不可少的

期刊

外语听力学生具体情况外籍教师外语教学听力训练电教器材材料数量听力材料口语训练学语言

基于Scrapy框架的分布式网络爬虫的研究与实现

与本文相关的学术论文