基于Scrapy框架的分布式网络爬虫系统设计与实现

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:aaatzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现对数据信息的实时、有效处理分析.经过实际应用测试,证明基于Scrapy框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率.
其他文献
古建筑是历史的见证和文化的载体,城市建设理念上的差异以及城市建设进程的不断加快,使古建筑正在遭受不同程度的破坏,古建筑建档保护困难的问题亟待解决.文章以浙江桐庐某历史建筑为例,研究了采用三维激光扫描技术保护古建筑建档的原理、方法、优势.通过点云切片,绘制平、立、剖面以及典型图案建筑现状测绘图,为古建筑建档保护提供一种全新的途径和方法.
探讨了基于Socket的空调远程控制系统设计和实现,介绍了系统设计的总体方案,并在Delphi编程环境下实现了基于局域网的控制系统.该系统由服务器及客户端组成,服务器负责下达指令,客户端接收指令,采集空调机组的运行数据上报给服务器.服务器与客户端之间采用Socket进行远程通信.实验证明,该系统能有效地实现一对多的实时控制.
计算机的诞生标志着“信息时代”的开端,关于计算机的科学也变得越来越成熟.文章开发了一款基于Java的通讯录系统,通过对开发环境、需求分析、系统的整体设计和后台详细设计的研究,力求设计并实现一款功能完善的通讯录系统,通过实际使用可知,该系统可以很好地完成设计的各项功能,可满足大多数用户的一般需求,上手快,易用度高,为用户的日常生活和工作提供便利.
为了降低喷房的溶剂使用量、减少废溶剂排放,提出了使用纯水作为换色清洗介质,替代原有溶剂清洗的方案,并在中涂机器人上验证试验.实际运行效果表明:提出的方案可靠有效,具有较高的推广价值.
在信息爆炸的时代,针对人们常伴有焦虑抑郁等不良情绪会对其生理和心理造成不可逆转伤害的问题,文章设计了一款私人心理“医生”.该私人心理“医生”通过所收集的用户面部表情的照片或视频,运用面部识别技术来识别人脸;继而通过微表情技术,精准地识别微表情中隐藏和压抑的情绪信号;最后通过情感识别技术推测和初步判断用户的情绪,并对其心理问题做出诊断.
汽车制造在涂装工艺过程中工序繁杂,生产过程中各工序根据工艺不同,会产生污染成分复杂、污染物浓度高的涂装废水,废水间歇式排放且排放不规律.合理地选用适宜的废水处理方式,因地制宜地根据不同企业的工艺特点设计出符合企业要求的处理工艺,才能提高废水的处理效率、缩短处理周期,并减少处理费用.本文以一家汽车生产企业的涂装废水处理为例,对废水处理工艺应用于工程实践情况进行浅要解析,用以说明面临多种涂装废水同时处理的情况下,如何选用综合治理方法和组合治理工艺,以供同行参考.
PVC胶密封是涂装车间的关键工序,起防腐密封作用.烘干后会一定几率出现胶条中间开裂和不粘接现象,失去其防腐蚀密封作用.通过试验排查确定是由于PVC胶在烘干过程中,车门外板与内板受热出现时间差,外板优先受热出现热膨胀效应;同时由于车门折边内折边胶过少不足以对抗所产生的应力出现PVC胶开裂现象.通过提前进行打磨,增加折边胶量可解决开裂问题.
针对传统PID控制方法响应速度慢、鲁棒性差的缺点,文章提出基于自抗扰的双电机同步驱动电动缸的控制策略.采用交叉耦合控制器以保证双电机转速同步的性能;设计作用于位置环的自抗扰控制器,利用扩张状态观测器(ESO)对伺服系统的扰动进行估计和补偿.在Matlab/Simulink与Adams中进行了联合仿真实验,仿真结果表明,相较于传统方案,采用该控制策略可获得更快的系统响应速度,且稳态误差更小,鲁棒性强.
汽车涂装车间使用的喷涂机器人集智能化为一体,通过静电喷涂原理实现较高的油漆利用率和漆膜质量一致性,已逐步替代人工喷涂.本文介绍了一则喷涂机器人特殊静电高压故障的现象,分析了产生的原因,制定相应解决措施,保障了车身涂装质量.
主要围绕轻卡驾驶室涂装生产线工艺规划、工艺设计过程中涂装工艺技术路线选择、多种轻卡驾驶室车型柔性共线输送技术、多种轻卡驾驶室车型柔性自动涂胶技术、超柔性轻卡驾驶室内外表面自动喷涂技术、节能减排涂装工艺装备技术等几个方面,从绿色柔性涂装工艺设计的角度进行技术探讨.