分布式爬虫任务调度与AJAX页面抓取研究

被引量 : 0次 | 上传用户:slim_ning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,数据呈现爆炸性增长,同时人们对数据的采集需求也与日俱增。网络爬虫作为数据获取的有效手段被广泛应用于各类系统中,诸如搜索引擎、舆情监控系统等。然而,面向中小规模系统的网络爬虫面临着两大难题:其一,单机爬虫程序抓取速度慢,已有的开源分布式爬虫框架实现复杂,灵活性不强;其二,虽然Ajax技术以异步加载的方式与服务器交换必要的数据能够提高用户界面响应速度,带来良好的用户体验,但是传统的网页抓取方式无法完整的获取应用了这项技术的页面所包含的信息。这些缺失的信息通常具有重要的研究价值。在面向中小规模系统的分布式爬虫中,任务调度算法的优劣将直接影响系统的抓取效率。因此,本文重点对分布式爬虫的任务调度策略和Ajax页面抓取算法进行了研究。在分布式爬虫的任务调度方面,本文重点研究了主从式架构下的任务调度算法。为了保证各个爬行节点的负载均衡以及系统的可扩展性,本文提出了一种基于一致性哈希的均分负载空间算法。该算法采用了不同于机器节点复制的虚拟节点添加方法,以解决在机器数量较少的情况下系统负载不均衡问题。中心节点在把握系统整体运行状态的基础上采用该算法进行任务调度,并在爬行节点发生变化后进行相应的任务调整。通过实验比较,验证了该算法在负载均衡效率方面获得了提高。在Ajax页面抓取方面,由于单个Ajax页面中包含了许多状态,本文首先采用了经典的状态流图对Ajax页面进行建模,然后提出了基于网页主体内容变化的重复状态检测算法,并利用该算法进行有效元素的XPath特征训练,最后将训练后的结果应用到Ajax页面抓取中。通过实验比较,验证了该方法在保证获取所有数据的情况下能够进一步地减少事件触发总数,缩短页面抓取所消耗的时间,提高了Ajax页面抓取效率。最后,本文提出了支持Ajax页面抓取的分布式爬虫系统总体设计方案,并详细介绍了中心节点和爬行节点各模块的实现细节。通过将分布式爬虫系统成功的应用到网络舆情监控项目中,验证了本文所提出技术的有效性。
其他文献
人情作为一个本土概念,在日常人际交往中为每个人所熟知.它的产生有其独特的社会文化背景,其中农业社会的结构特征与儒家文化的熏陶教化共同发挥了重要的作用.人情交往反映了
广州市中小学教师出现的“跳槽风”,是教育战线一个尖锐而迫切的问题,其实质是我国脑、体力劳动者收入关系颠倒的问题,尽快采取切实有效的措施予以解决,已成为当务之急。
交际策略作为影响二语学习者中介语形成和发展的因素之一,受到国外应用语言学和第二语言习得研究的普遍关注.本文旨在探讨交际策略的性质,交际策略对交际能力的影响及其在第
<正>力学载荷是维持椎间盘细胞及基质的生物代谢的重要因素。椎间盘是人体内最大的无血管组织,椎间盘与周围组织的营养物质以及代谢产物的交换主要通过弥散与对流,组织间隙压
关于吸毒人群心理状况的研究是毒品和吸毒者研究领域的一个重要组成部分。然而,此类研究基本均是从心理学视角出发的量化研究,而从吸毒者角度讨论因使用毒品而带来的主观心理
有序介孔氧化硅材料具有独特的结构和性质,如高的比表面积、大的孔容、均一的孔径分布、丰富的结构和形貌等,在多相催化领域受到广泛的关注和研究。本文回顾了近年来介孔氧化
随着科学技术的持续发展,军工和民用设备日趋小型化、集成化,进而对印制电路板(PCB:Printed Circuit Board)的质量要求日益提高。PCB光学自动检测(AOI:Automatic Optical Ins
随着工业化与信息化的发展,现代制造业对于产品AOI (Automatic Optical Inspection,自动光学检测)系统的需求与日俱增,其中对于大尺寸、高精度的产品检测,线阵扫描AOI系统的
随着工业化与信息化的发展,现代制造业对于产品AOI(自动光学检测)系统的需求与日俱增,其中对于大尺寸、高精度的产品检测,线阵扫描AOI系统的地位非常之重要。对精密电子、半
作为"《江苏省城镇体系规划—2030年》战略方针的思考"一文的撰后余思,笔者对城镇体系的区域发展差别化问题继续思考,深入分析了其概念和内涵,研究提出选择区域发展差别化战