支持AJAX的互联网搜索引擎爬虫设计与实现

被引量 : 0次 | 上传用户:huanghoubin101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫是搜索引擎的关键技术之一,近年来,随着Web 2.0的兴起,AJAX技术在Web开发中的大量应用,AJAX使用异步向服务器发送请求的方式,从服务器获取数据后动态修改Web页面内容,导致传统网络爬虫抓取的内容远少于页面呈现的内容,这对搜索引擎查询结果的准确性有很大影响。本文设计实现的AjaxCrawler通过截取AJAX异步请求返回的数据并分析,从而获取更多的页面内容。 该爬虫由网页抓取、网页分析、JS解析、DOM支持、页面生成五部分组成。网页抓取模块通过HTTP请求,获取需要抓取的页面。网页分析模块分析页面元素信息,和传统爬虫不同的是,该爬虫不仅分析页面中的超链接和页面内容,还分析JavaScript文件和代码。JS解析模块执行页面中的JavaScript代码,这些代码中包含AJAX调用,获取从服务器返回的请求内容,得到内容后通过DOM支持模块修改页面内容。最后,页面生成模块利用上—模块的结果重新生成新的页面内容,然后提取新页面中的超链接。 本文最后对AjaxCrawler和传统爬虫抓取结果进行了实验,通过实验,证明了AjaxCrawler在同等条件下抓取AJAX网站的页面内容远多于传统爬虫。
其他文献
随着我国经济迅猛发展,农业现代化建设的进程也不断加快。虽然我国地大物博,但庞大的人口规模决定了我国有限的人均耕地面积。此外,由于我国的国土面积广阔,不同地形区以及不
城市基础设施是城市存在和发展的物质载体,我国各级政府对其不断拓展和完善都十分重视,但制约城市基础设施可持续发展的瓶颈是建设资金问题。城市基础设施具有公共使用、系统
近年来,我国安全生产形势十分严峻,每年发生的安全生产事故居高不下。机械制造业是我国国民经济的支柱,在安全生产中起着承上启下的作用,一个小小的安全隐患就有可能对企业和
随钻测量技术是一种集钻井、测井、自动控制、新材料等多学科为一体的高新技术。传感器测量数据精度的提高可以保证整个随钻测斜仪所采集的观测资料精确可靠。针对现场的实际
从神华宁夏煤业集团煤质管理考核机制、现有煤炭产品结构、计价方式等方面入手,分析了现阶段影响企业实现提质增效的各种因素,从进一步优化煤质管理体制、建立符合煤质管理考
为了初步探明优质强筋春小麦津强5在东北春麦区的品种适应性,本研究通过分析2009—2011连续3年天津武清地区津强5整个物候期的气象特征,总结津强5的生育特点,预测东北春麦区
近期台湾几部指标性之大众市场效应电影如《海角七号》(2008)、《艋舺》(2010)等,全面带动观众支持台湾电影的风潮,形成台湾电影复苏的新样貌。通过运用数据指针可以概括描绘
南海我国可管辖的海域面积近 2 0 0万km2 ,具有丰富的生物、油气、矿产等资源 ,是我国经济与社会可持续发展的强大支持和保障因素 ,具有海域面积大、资源丰富、区位优势明显
五代南唐画家徐熙的花鸟画,迈越了前代的成就,又开创了并世和后世的风气,是空前绝后的。然而其身世却有诸多说法,作者经过考证认为徐熙为金陵人,徐温之孙,而徐崇嗣则为其子。
电信业正处在一个“网络融合”的时代——随着数字技术、软件技术、TCP/ IP协议、宽带接入技术等信息通信技术(ICT)的发展,原本各自独立的、专用的电信网络、有线电视网络和