动态页面数据采集方法的研究与分布式实现

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:xiaomei52689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,Web2.0快速发展,互联网上嵌有JavaScript脚本的动态页面所占比例越来越大,给页面数据采集工作带来了很大的困难。在网络舆论及搜索引擎研究领域,虽然页面数据采集的主要对象仍然为静态页面,但对动态页面中的数据进行采集的需求越来越迫切了。本文在研究了常用脚本解析环境、Hadoop分布式计算环境与分布式网络爬虫原理的基础上,提出了脚本解析环境的分布式构建方案。该方案将脚本解析环境嵌入到分布式网络爬虫中,实现了动态页面的数据采集。脚本解析环境的分布式设计方案包括三部分:脚本解析任务调度、脚本解析环境构建和脚本解析实现。脚本解析任务调度部分在研究Hadoop常用调度算法的基础上确定了脚本解析任务的MapReduce调度算法。脚本解析环境构建部分首先根据浏览器脚本引擎执行脚本片段的顺序和脚本片段在页面中的嵌入形式设计了脚本的解析流程和提取算法,然后提出了常用浏览器DOM对象与Rhino脚本解析引擎绑定的设计方案,完成了脚本解析环境的构建。脚本解析实现部分将脚本解析环境嵌入到分布式网络爬虫中,设计了脚本解析环境的整体文件架构和数据存储格式,并完成了脚本解析环境各个子模块的MapReduce实现。最后本文搭建了Hadoop分布式计算环境,对嵌入脚本解析环境后的分布式网络爬虫进行了相关测验,验证该方案在动态页面数据采集中的实用性。测验数据表明该方案是实现动态页面内超链接网络地址获取和网页主体内容采集的有效方法,扩大了数据采集的页面来源。
其他文献
随着新能源开发和利用不断展开,沼气作为一种高燃烧效率、低污染的生物质能源,不仅满足我国日益增长的能源需求,而且对环境保护有重要意义。变压吸附提纯工艺具有操作简便、
随着互联网在中国的不断普及,基于互联网的商业模式——电子商务迅速崛起,由于其传播速度快、无区域限制等特点,电子商务迅速受到国内企业的热捧,各行各业的企业纷纷尝试把传统商
《第25次中国互联网络发展状况统计报告》指出,截至2009年12月,我国网民的数量为3.84亿,互联网普及率已达28.9%。然而,伴随网络科技的迅猛发展,网络侵犯著作权的现象却不容乐
本文选取具有区域性和艺术性的东北秧歌形成之中的“雅化”作为考察对象,通过对东北秧歌的文献进行整理发觉现今东北秧歌研究领域中本体研究与现状分析较为全面,部分单项研究
剧本结构是剧作者根据表现的内容和主题内涵,对一系列人物和事件以不同的轻重主次合理进行的组织安排,达到一个剧本最终想要达到的效果。笔者将剧本的故事内容设置在现实的生活
目的:描述并分析延吉市社区老年人的健康状况和生活质量的现状及影响因素;确认社区老年人健康状况与生活质量的相关关系;明确健康状况对生活质量的影响。方法:对延吉市698名老年
基于聚酯的反应性共混原理,以聚对苯二甲酸乙二醇酯(PET)和聚对苯二甲酸丁二醇酯(PBT)为原料,醋酸锌(Zn Ac)为酯交换催化剂,利用双螺杆挤出机共混制备了共混产物PBT/PET嵌段
目的与背景泌尿系统的肿瘤常常发生在40岁以后,男患者是女性患者的一倍左右。包括了肾脏、肾盂、输尿管、膀胱、尿道等部位的肿瘤。泌尿系统中,肾盂之下的部位为管道脏器,其
本文对“玄鸟”的综释(以《玄鸟》篇中“玄鸟”为核心关注),是在尊重前人研究成果的基础上,按时代顺序围绕玄鸟本义和“玄鸟生商”的解读而展开的,并以不同的核心观点而分为
学位
滚动轴承是旋转机械中应用最广泛的关键零部件之一,它的工作状态直接影响到机械系统的运行状态。据统计,在旋转机械中,大约有15%的机械故障是由轴承引起的。因此,滚动轴承的