基于手机的分布式爬虫系统设计与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:cyberfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络互连技术的发展,原本作为通信设备的手机,成为了目前访问互联网频率最高,数量最多的网络终端设备。随着手机性能的大幅提高,使得以智能手机作为平台,部署网络爬虫程序,对特定主题网站进行数据爬取具有了可行性。本文针对传统爬虫程序存在的IP封锁问题,提出了基于手机的分布式爬虫模型。围绕该模型重点研究和解决以下三个问题:实时通信问题、精准爬取数据问题和大范围快速爬取问题。对于实时通信问题,本文主要解决的工程难题是服务器端与手机端的实时通信。系统将服务器端构建成两个部分,一块是推送消息服务器,另外一块是Web服务器。手机端从消息推送服务器上获得任务推送,并将抓取数据传送给Web服务器。Web服务器根据完成任务情况再次下发任务列表给消息推送服务器。为了实现实时通信,推送端通信协议选取基于可扩展标记语言(XML)的XMPP协议,Web服务器端选用HTTP协议。对于精准爬取数据问题,通过构建垂直爬虫机制和数据清洗来解决。本文采取了两种数据爬取策略,分别是大站优先策略和广度优先策略。通过数据融合方法“清洗”爬取到的数据,补充缺失数据,从而获得准确数据。为了提高数据爬取速度,本文利用了分布式机制,创立了动态任务分配模型,根据节点的负载均衡情况,综合节点手机运算性能、爬虫预计完成任务所需时间、由控制节点达到爬虫节点所需时间等因素,动态的进行任务分配,并用代码实现了动态任务自适应算法。本文基于这些核心机制,利用WebMagic框架,实现了“基于手机的分布式爬虫系统”。该系统在持续的工作条件下可以实现高效快速的数据爬取,解决了IP封锁问题。为验证模型及根据模型所构建出的系统可行性,我们使用多台Android智能手机进行了系统验证。结果表明,该系统能够突破IP封锁限制而且下载效率要高于基于PC的传统爬虫系统。
其他文献
涂装车间是汽车生产过程中的能源消耗大户。广汽乘用车通过管理优化和技术改进,不断推进车间节能降耗,取得了突出的成绩。
为了减少水资源浪费,实现高精准农业灌溉,基于PLC和物联网技术,结合ZigBee与GPRS通讯技术,研究并设计了一种智能灌溉节水系统。系统通过无线传感器网络节点采集土壤湿度信息,
刘小枫指出,"叙事伦理学不探究生命感学的一般法则和人的生活应遵循的基本道德观念,也不制造关于生命感觉的法则,而是讲述个人经历的生命故事,通过个人经历的叙事提出关于生
在市政工程排水设计中,水力计算是不可缺少的一部分,它直接确定了各段管线在施工中需采取的管径、坡度和雨污水在管中的流速,从而也影响到了管网施工的工程造价一系列的经济
1)为害特点。主要危害早中熟桃果的果肉,初孵幼虫先在果梗周围吐丝蛀食果皮,逐步蛀入果肉,也可危害嫩桃核。桃果受害后,蛀孔中流出黄褐色透明胶液,蛀孔周围留有大量红褐色虫粪
构建适应新世纪需要的高等学校人才培养模式,须将素质教育和能力培养贯穿于人才培养的全过程。对人才知识结构和能力水平等素质要求作了分析
钩尾框是货车重要的连接部件,随着铁路运输需求的增加,铁路货车重载提速备受关注,钩尾框作为缓冲装置重要组成部分,对其性能的要求也在不断提高。致使钩尾框的成形工艺的发展
【正】 与世界其他国家相比,我国农村在人口、劳动力资源、耕地面积及劳动力产业结构和地理分布等方面都有着明显的特点:人口多耕地少的矛盾尤为突出;不仅农村劳动力严重过剩
光学相干断层扫描(optical coherence tomography ,OCT)技术是一种快速,非侵入性,具有高分辨率的,可进行断层成像的新影像学方法。它能清晰显示视网膜及脉络膜不同层次结构并
激光数字散斑测量作为一种精密的测量方式正在被应用到工程测量的各个领域中去,在研究高速断续切削下面铣刀刀具变形应用方面,该种测量方式利用的显然不够成熟,随着科技的不