自定义分布式网络爬虫的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jasongoes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,大数据已经渗透到每个行业和业务功能领域,其价值也越来越显著。提取出有意义有价值的数据尤为重要。因此用于互联网信息采集的网络爬虫面临着巨大的机遇和挑战。目前国内外一些大型搜索引擎只给用户提供不可定制的搜索服务,单机网络爬虫又难当重任,已有的分布式网络爬虫虽然功能强、效率高,但普通用户难以理解和使用。本文设计并实现了一套基于分布式的自定义采集网络爬虫系统。能够精准批量识别各种网页元素并自动生成提取规则,支持不同网页结构的复杂网站采集,满足多种采集应用场景,高效爬取数据。用户利用系统,按照自身需求,可视化编辑爬虫任务脚本,自动完成对爬虫数据的采集。本文的主要工作如下:(1)通过对嵌入式Qt框架的研究,开发嵌入式浏览器并使其具有记录用户网页操作、获取元素定位信息、智能识别网页相似元素等功能,实现自定义爬虫系统的终端图形界面。方便用户可视化编辑爬虫任务,最终生成用户自定义的爬虫任务脚本。(2)借鉴当前scrapy-redis的分布式架构的思想,以redis作为存储任务的队列,实现基于主从式分布式架构的爬虫系统。针对各物理从节点的异构性导致所承载虚拟节点数不同的问题,提出一种自适应调整虚拟节点的算法。物理从节点可实时根据自身负载调整虚拟节点数,保证从节点自身最佳负载;针对中心节点中任务调度问题,提出一种受限负载均衡算法。主节点为并行任务选取负载较小的虚拟节点(集)的同时尽量保证节点集被分配在同一个物理节点上。方便对任务的管理,确保系统中各爬虫节点负载均衡。(3)采用python+selenium技术,设计并实现自定义爬虫。该爬虫通过对爬虫任务脚本进行解析,驱动浏览器按照脚本中的指令,完成对网页的操作,实现自定义采集。同时,为防止爬虫受到站点反爬虫策略的影响,设计并实现动态ip代理池。通过多站抓取、定时异步验证ip有效性、实时监控代理池中ip的数量与质量,为系统提供高质量的ip。
其他文献
<正>在搜索引擎、B2B、展会等外贸营销平台的竞争日趋残酷化的今天,企业能否掌握一些竞争度低、效果回报高的平台非常重要。当传统外贸平台上的竞争对手呈几何式增长的时候,
目的考察新疆乌头属植物总生物碱含量测定的方法。方法用分光光度法测定新疆乌头属植物中总生物碱的含量。以乌头碱为对照品,溴甲酚绿为酸性染料,缓冲溶液pH(3.0±0.1)条件下
<正>如果要问哪个国家或地区是最具价值的新兴跨境电商市场,那么俄罗斯绝对当之无愧。据预测,到2015年,俄罗斯在线零售将达360亿美元,年增长达27%,占社会总零售5%。互联网用
<正>2014年4月17日,俄罗斯总统普京在与民众进行的直播连线中透露,2013年俄罗斯和中国的双边贸易额已达到870亿美元。俄罗斯认识到,中国已经逐渐成为全球第一大经济体。目前
目的考察新疆和田地区不同产地的管花肉苁蓉不同部位中松果菊苷、毛蕊花糖苷和苯乙醇总苷的含量。方法分别采用高效液相色普法(HPLC)和紫外分光光度(UV)法检测管花肉苁蓉不同
目的优选消瘤片薄膜包衣的最佳工艺条件。方法采用正交试验设计法,以崩解时限、包衣合格率作为评分指标,筛选出消瘤片的薄膜包衣工艺参数。结果消瘤片薄膜包衣的最佳工艺条件
目的研究麻白宣肺化痰颗粒提取工艺的最佳条件。方法以盐酸麻黄碱和盐酸伪麻黄碱总含量及总黄酮含量作为提取工艺的考察指标,采用L9(3)4正交设计优选提取工艺。结果最佳工艺
目的了解乌鲁木齐市中医医院药品不良反应(ADR)的发生特点及引发ADR的相关因素,为临床合理用药提供参考。方法对乌鲁木齐市中医医院2008-2009年收集的127例药品不良反应报告
<正>由于近几年欧盟、美国等传统市场对玩具需求疲软,且玩具技术壁垒不断增强,我国玩具出口企业纷纷将目光瞄准新兴市场。其中在跨境电商快速发展的带动下,俄罗斯市场成为我
目的探讨香青兰颗粒对肾性高血压大鼠血压、血流动力学的影响及其降压机制,为传统药物新用提供实验依据。方法采用左肾动脉狭窄法建立两肾一夹高血压大鼠模型;设假手术组、模