基于Hadoop的分布式网络爬虫技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tony_guang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今我们正生活在一个信息爆炸的年代,随着互联网行业迅猛发展,这些信息每年以指数型增长,同时对于随时随地获取信息的需求也与日俱增,这些需求驱动了云计算的发展。在这个大背景之下,Google、IBM、Apache和Amazon等大型公司纷纷投入大量财力去发展云计算。其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。本文所开发的分布式爬虫系统即是在此框架下设计和实现的。本文的目的设计并实现一个基于Hadoop的分布式爬虫系统,完成大规模数据采集的任务。同时,该爬虫系统采集信息类型为27种语言的主流新闻网站。该爬虫的采集方式为全站式信息采集,即抓取27种语言种子对应网站上的全部信息。另外,27种语言信息还要分别保存便于后面跨语言处理。本文全部工作中研究部分包括云计算相关知识介绍、Hadoop分布式平台相关知识介绍、网络爬虫原理和分布式爬虫发展现状调研。首先,对云计算的定义、原理和体系结构进行调研。然后,深入研究Hadoop平台的分布式文件系统(HDFS)和分布式计算模型(Map/Reduce)。接着讲述爬虫系统的原理,了解开发一个爬虫需要的流程。最后调研目前分布式爬虫系统的发展现状。上面这些研究为本文提供了技术基础,本文在此基础上提出了基于Hadoop的分布式网络爬虫系统的设计方案,包括爬虫系统的基本流程设计、框架设计、功能模块划分和各模块的Map/Reduce设计。在概要设计的基础之上,本文做出了系统的详细设计,实现整个系统,包括数据存储结构的实现、爬虫总体数据结构和各个功能模块的实现。最后,对本文做出详细总结。本文的意义在于实现了一个基于Hadoop的分布式爬虫系统,该系统采用Map/Reduce计算框架符合整个项目分布式框架。解决了单机爬虫效率低、可扩展性差等问题,提高了信息采集速度并扩大了信息采集的规模。为分布式跨语言信息获取和检索平台的索引模块和信息处理模块提供数据。
其他文献
“农业、农村和农民问题,始终是关系党和国家工作全局的根本性问题。”截止2009年底,中国农村土地面积占全国总量的94.7%,人口占53.4%,农村发展在最新实施的“十二五”规划中
随着我国市场改革的力度不断加大,我国的证券市场正在朝着正规化、制度化的方向发展。对于投资者而言,公司经营状况好坏的直接决定因素就是它的会计盈余。然而,经营者者可以
随着世界经济的快速发展和现代科学技术的进步,冷链物流作为国民经济中一个新兴产业已然崛起并正在迅速发展。冷链的崛起标志着地方、行业及消费者的觉醒,认识到冷链对于保障
城市公园作为城市居民休息、娱乐、集会、交往的重要场所,在城市建设中扮演着重要角色。是集自然景观和人文景观于一体的公共开放绿地。城市公园对于承载城市文明、改善城市
当今的视觉影像铺天盖地,无所不在,图像在我们的日常生活中被更加广泛的应用。如今的新闻摄影早已不仅仅局限在表现新闻事实,而是在传播信息的同时讲究传播的效果,运用不同的
犯罪新闻所涉及的问题关系到社会安定和公民生命及财产的安危,其浓厚的戏剧性和强烈的震撼性、刺激性更是与生俱来,因此受到社会和国内外各类媒体的特别关注。本文试图从新闻
异步电机以其结构简单,价格低廉被应用于工农业生产的各个领域。当异步电机发生故障之时不仅损害电机本体,而且有可能引发重大生产安全事故。为保证电机及其所驱动负载的安全
创业对促进经济发展效率,为市场带来创新,促进和维持就业水平都是很重要的。近年来,创业研究成为多学科交叉的热点领域。比较显著的变化就是创业研究已从宏观的环境研究深入
“民以食为天”,肉类食品是人们日常生活中必不可少的食品。冷却肉较之热鲜肉和冷冻肉保质期长且安全卫生,柔软多汁,色泽鲜红,味道鲜美,营养价值高。早在五、六十年代,世界上
“创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力”,无论是个人的发展、企业的腾飞、社会的进步乃至整个国家的强大都离不开创新,创新是时代的需要,推动着人类文明