面向动态页面的网络爬虫系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:hy009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网从诞生到现在,已经聚集了海量的信息资源,然而这些信息在网络中的存放杂乱无章,使人们在获取信息的时候遇到困难,搜索引擎是的产生就是为了帮助人们更好地从互联网中检索信息,它已经成为互联网中最不可或缺的工具。本文在学习了网络爬虫程序的工作原理、遍历策略、网页排序算法、DeepWeb等知识的基础上,设计并实现了一个能自动从目标网站中提取各种页面的系统。网络爬虫程序是搜索引擎中用于下载Web页面的重要组成部分,随着互联网技术的不断发展变化,对于如何增强网络爬虫程序的工作能力来适应变化的Web应用程序已经成为国内外学习研究的热点。传统的网络爬虫程序只能抓取互联网表层的可索引页面,它们忽视了大量的必须经过动态技术才能获取的处于网络深层的页面,因此研究面向动态页面的网络爬虫系统非常具有实用价值。   本文根据动态页面产生的多种原因,如利用HTML表单查询数据库动态生成页面、AJAX技术动态执行脚本后生成新的页面,提出了多种提取动态页面的方案,使得网络爬虫系统能够从目标网站中得到更多传统爬虫系统无法获取的Web页面。面向动态页面的网络爬虫系统使用多线程对Web页面进行同步的下载和分析,提取Web页面中的所有静态链接、表单、JavaScript脚本代码以及JavaScript页面事件,通过模拟用户填写表单和触发事件执行脚本来获取页面中的动态链接,并将提取的所有链接使用布隆过滤器存储,将链接通过多个互不相关的hash函数映射到一快内存的多个比特位上,能够迅速地判断链接是否重复,大大地提高了效率,最后对该系统进行了全面的测试,验证了系统实现的正确性和稳定性。
其他文献
随着自然语言和互联网的飞速发展,全球每天都有成千上万甚至上亿的各种新闻事件发布,而大部分是英文新闻,在汉语国家中也有大量的中文新闻公布,如何从这些大量英文新闻中快速的识
随着RFID技术的日渐成熟,应用范围越来越广,其安全和隐私问题也越来越受人们关注。目前RFID安全机制主要分为两类:一类是物理安全机制,另一类是设计安全认证协议。物理安全机
由于现实生活中很多实际问题的发生多为各学科相互作用的结果,如何处理交叉学科数据是业界的棘手问题。粗糙集理论作为一种新的软计算方法,它能有效的对不完备地、不精确、不
互联网的信息在过去几年爆炸式的快速增长,这种快速增长和Web的动态变化特性使得我们在Web上完成有效的信息获取变得十分重要。网络爬虫是一个自动程序,它能有条不紊地通过扫描
大脑可以接受外界的繁杂信息,对各种信息进行组织、加工、处理,完成整个思维过程,指导相关器官执行任务。探索人脑的组织结构与执行功能之间的关系,理解人脑的工作机制,对打
人脸识别作为生物识别技术的一种,具有无接触、安全和方便的特点。人脸识别技术广泛应用于人机交互、交易认证及安防等领域,一直是生物识别技术研究的热点。   近年来,随着移
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗
随着传感器技术的发展,监测系统被广泛应用于人们的生产生活中,对工业生产自动化、环境保护、安全防卫和医疗卫生等方面都产生了重要的影响。监测系统能够提高监测数据的可靠性
云计算是近些年新出的一个热门名词,它从提出到现在一直受到了各大企业、高校以及政府的重视并很快成为众多厂商竞相研究的技术。随着云技术的日益成熟,越来越多的云产品开始问
射频识别(Radio Frequency IDentification)系统是一种非接触式的自动识别系统,它通过射频信号自动识别目标对象并获取相关数据。射频系统主要由标签、阅读器和后台服务器三