基于Docker容器的分布式爬虫的设计与实现

来源 :电子设计工程 | 被引量 : 0次 | 上传用户:forbook121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,信息量也随之快速增长。为了快速地获取特定的有效信息,通过对开源爬虫框架Scrapy的学习研究,结合Redis数据库和MongoDB数据库,设计并实现了一个分布式网络爬虫系统。此次针对58同城租房信息进行爬取,网页数据存入MongoDB数据库,网页链接存入Redis数据库,着重对反爬虫问题进行处理优化,并使用Docker容器对传统部署环境进行了改造。运行结果表明,基于Docker的分布式爬虫系统比基于VM的分布式爬虫系统运行效率更高更稳定。
其他文献
针对传统机械锁结构简单极易被非法开锁,电子密码锁的密码容易被窥视破解,两者皆存在安全隐患和管理漏洞的实际问题,提出一种基于云服务的智能指纹锁系统设计。智能指纹锁系统以人体唯一性和不可复制性的指纹为识别载体,只有注册了指纹的合法用户才有开锁权限,并在开锁的同时将指纹的有关信息上传到云端保存,远程用户可以通过云服务在电脑或手机APP上实时查询开锁信息。测试结果表明,系统运行稳定,指纹识别率高,极大的提
针对桥梁工程信息监测的数字化与智能化需求,文中设计了基于BIM技术的桥梁工程信息监测系统。该系统以BIM桥梁工程数据信息为基础,同时结合多种传感器监测数据作为桥梁整体工
分析了影响手术室工作效率的原因,提出一切以满足手术需要为原则,通过全天候开放手术间、合理安排手术、实行护士弹性工作制、建立完善的分级管理及工作考评制度和专科护士责
在两相混合式步进电机驱动电路中,为了简化电路、提高驱动能力,提出了一种基于DSP+DRV8412的两相步进电机驱动电路的设计方案。利用TMS320F28035作为主控芯片,为系统产生PWM
针对传统基于人工遴选传统情感数据分析技术具有样本容量小、人为误差大、操作成本高及时效准确性难以保证的缺点,文中提出了一种基于网络数据挖掘和BP神经网络分类的情感数据分析系统。基于相应的数据处理技术,系统在机器人操作系统(ROS)上使用Kinect深度相机,完成了被检测对象心理数据的采集及预警。与传统人工参与的心理预警方式相比,该系统基于数据挖掘和智能计算技术,具有较高的准确性、实时性及自动化程度。
为提高光栅阵列测温仪表的测量精度,使之满足大容量、长距离、高精度的测量要求,采用高低温交变湿热试验箱装置,在恒定湿度、无应力的情况下对光纤Bragg光栅(FBG)传感器的温度传感特性进行了实验研究,温度范围为-20~80℃。结果表明各FBG传感器的中心波长λB与温度T的线性相关系数均低于0.999;若采用二阶拟合曲线,其相关系数均大于0.999 8,因此可采用二阶拟合曲线表示FBG传感器中心波长与
对临床支持中心设置以来的工作进行总结,探讨医院临床支持中心的设置及其作用.认为临床支持中心适应现代医学模式要求,能更好配置资源,为临床及患者提供优质服务,有力保障临