基于Hadoop的分布式网络爬虫的研究与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:xinwang01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网迅速普及并应用于人类生活的各个方面,互联网上的数据急剧增加。用户想要从如此大规模的数据中找到自己想要的信息必须借助搜索引擎。网络爬虫是搜索引擎的核心,它通过广泛抓取互联网中数以亿计个网页的数据,支撑搜索引擎的运行。因此研究高效稳定的网络爬虫系统具有重要的意义。本文主要利用Hadoop大数据平台,研究设计了一个分布式网络爬虫系统,主要工作如下:1)设计了一个基于-Hadoop的分布式网络爬虫,并利用HBase数据库进行数据存储。其中主要包括了可以绕过网站反爬虫机制的抓取模块,提取网页链出URL的解析模块,利用HBase行键的唯一性完成去重功能的去重模块以及方便爬虫系统数据存取和PageRank计算的HBase存储模块。2)在MapR educe分布式计算框架下实现了PageRank算法。利用Hadoop分布式集群强大的计算能力,大幅度提高了PageRank值的计算速度。3)在实验室服务器上搭建了8个节点的Hadoop集群,每个节点安装配置Java开发环境、Hadoop、ZooKeeper、HBase。然后在该实验环境上测试本文设计的分布式网络爬虫的功能性、性能、稳定性和可扩展性,最后测试了MapReduce下PageRank算法的计算速度。经过实验证明,本文设计的分布式网络爬虫系统可以提升数据采集的效率,并且能够长时间稳定运行,还具有良好的可扩展性。在MapReduce框架下,PageRank算法的计算速度也大幅提升。
其他文献
外来人口在推动当地经济社会发展中有着举足轻重的作用。然而,大量外来人口带来了新的管理矛盾和社会问题。文章对诸暨市店口镇的外来人口现状及管理现状等一系列问题进行了
公共安全是国家安全的重要组成部分,是国家整体安全保障体系的重要一环,提升公共安全管理的水平具有重大的社会、经济和人文效益。从公共安全管理所需的指控平台出发,结合项
长期以来,传统学科存在着过于注重理论知识传授,而 相对忽视学生主体性与主动性发展的问题.以“校园植物校本课程”开发为课题研究轴心,学校可充分利用校园自然资源,在明确课
本文从"科学、合理的公司治理结构是确保企业健康、稳定运行的核心"出发,阐述了目前我国金融资产管理公司的治理结构现状,客观评价了该公司现行结构在产权、决策权、监督权等
目的研究破壁灵芝孢子粉(Sporoderm-broken Spores of Ganoderma Lucidum ,SSGL)对虚热和虚寒证小鼠环核苷酸水平及免疫功能的影响。方法健康雄性昆明小鼠适应性喂养一周后随
为了培养国际政治与外交学专业的复合型人才,适应当今社会激烈的竞争,同时也为了提高本专业的教学水平,本文针对四川外语学院国际关系学院2009-2012级国际政治与外交学专业共
通过查阅近年相关文献,分别从单独运用莲花针拔罐疗法、莲花针拔罐疗法联合其他疗法,以及有关临床机理研究等方面做一综合概述,以期为临床应用壮医莲花针拔罐疗法治疗各科疾
以“丝绸之路经济带”(Silk Road Economic Belt)战略为契机,借助现有的合作平台如上海合作组织等,积极开展与中亚经济强国哈萨克斯坦的货币合作。当前,两国无论是在地理位置还是
父母教养方式是一种集合体,是父母在养育子女过程中经常采用的方法和形式,是具有相对稳定的行为风格。在不同的教养方式下,孩子受到潜移默化的影响结果不同,而父母教养方式对孩子的影响又体现在方方面面,宽恕感就是其中之一。宽恕感是指自己能够主动原谅别人且心安的一种情感。宽恕感作为人际情感的重要组成部分,对个体在生活中解决人际冲突时选择应对方式有重要影响,宽恕感对个体的人际交往能力和自身的心理健康水平有不可忽
<正>2018财年,美光净销售额达到304亿美元,同比上涨约近50%。未来,自动驾驶将重新定义存储需求,带来更大的市场增量。作为全球排名前三的存储公司,美光科技专注于存储业务,几