基于浏览器服务的网络爬虫的设计与实现

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:jimiewongy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫是搜索引擎的关键技术之一。近年来,随着Web2.0的兴起,AJAX技术在Web开发中的大量应用,使得网页的用户体验得到了很大的提高,但同时传统网络爬虫的缺陷日益显著,极大影响了搜索引擎的查询结果。   本文旨在设计一种能处理javascript/Ajax网站的爬虫系统。   为了能处理javascript/Ajax网站,首先必须了解页面的基本获取方式,页面代码的特性,以及传统页面展现方式与异步页面呈现方式的不同,其次,了解javascript/Ajax技术的特点,以及传统方式无法解决此问题的原因。我们期望达到以下几个目的:1、尽可能多的获取到与链接有关的javascript代码。2、能正确处理页面中的javascript代码。3、能准确获取到异步链接,并能进行下一层抓取。   文中首先尝试使用javascirpt引擎的方式解析网页中包含的javascirpt代码,期望以此来解决链接丢失的问题。但对于DOM对象处理的缺陷,使得该方案在处理Ajax网站时表现出了不足。   为此本文创造性的将IE浏览器作为爬虫的服务器使用,通过浏览器强大的页面处理能力帮助我们解决DOM对象的问题。通过测试,我们发现,该方案尽管功能强大,但效率上却有很大的缺陷。   于是在本文最后又提出了一套整合的方案,合理的利用两种类型的爬虫,使得爬虫的在功能和效率上都得到了一定的提高。并在文章的最后对三种方案进行了对比测试。  
其他文献
期刊
期刊
自20世纪80年代末光子晶体(光子带隙结构)概念提出以来,就受到了世界许多领域的广泛关注。光子晶体是一种由介电材料或金属周期排列而成的结构,该结构的表面波某一频率范围呈
本文主要介绍了精确人员定位系统中数据控制模块的实现。近十年来,通信技术发展越来越快,已经应用到人们生活的各个方面。广大的科研工作者已经或正把这一技术应用到社会生活
期刊
欺骗式干扰所需装置简单,且干扰效果好,日益成为雷达通信和卫星导航等系统面临的主要安全威胁。随着欺骗干扰技术的不断改进,已有的欺骗干扰模型较为简单,利用这一模型识别欺骗干
视频运动目标跟踪技术,简单说就是在下一帧图像中锁定感兴趣目标的确切位置以及获得运动目标的坐标消息、速度以及加速度等信息。为分析运动目标的运动趋势、运动轨迹、行为
多用户分集是无线通信系统中一种新的分集方式。不同用户在同一时刻所经历的衰落不同,因此某个用户经历深衰落的同时,另外的用户可能有很好的信道质量,对于信道质量良好的用户,以
卫星通信系统中盗用检测问题是卫星通信中亟待解决的难题之一。对卫星资源的盗用大致可分两种情况,一种是利用空闲转发器的频带资源进行传输,另一种则是在正常业务信号上叠加
期刊