基于Hadoop的分布式网络爬虫系统的研究与实现

被引量 : 12次 | 上传用户:hewanjiang1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网在人们的工作生活中占有越来越重要的地位,网站,微博,论坛,QQ,电子邮件等网络应用成为人们重要的沟通方式和信息获取来源。多种服务模式共存,互联网已演化成为一个虚拟社会,如何让这个虚拟社会得到有效监督,成为互联网管理中的大问题。因此,十分有必要结合互联网虚拟社会的特点利用现有的技术手段,构建一个互联网综合管理系统,构建这类管理系统首先需要提供大量的互联网网站备案数据。本文的目标是设计和实现基于Hadoop的分布式网络爬虫系统,从互联网抓取大规模数据,为基础资源管理系统提供网站备案信息。该爬虫系统的抓取方式是全站式信息采集,从省门户网站采集不同网址对应的网站备案信息,并将这些信息整理和存储用于后期网站备案信息管理。本文深入分析了网络爬虫的基本工作原理、体系架构和爬行策略,详细描述了Hadoop分布式平台技术,包括HDFS分布式文件系统和MapReduce分布式计算模型。本文对爬虫系统的业务需求和性能需求进行了分析,完成了系统的物理架构设计、功能模块设计和工作流程设计,并基于系统设计进行各模块的代码编写,完成了系统的具体实现和后期测试工作。本文最终实现了一个基于Hadoop的分布式网络爬虫系统,该系统采用HDFS分布式文件系统和MapReduce计算模型。本文的意义主要在于设计实现的分布式网络爬虫系统在一定程度上解决了单机爬虫系统低效率、低扩展性的弊端,提高了爬虫采集信息的速度和质量,为基础资源管理系统提供了大量网站备案信息。
其他文献
对尿素在活性染料染色中的应用进行了初步探讨,对其作用机理进行了一定阐述。
目的探讨p16、Ki67蛋白在宫颈病变组织中的表达变化及其临床病理学特征意义。方法选取我院收集的40例宫颈癌组织、40例宫颈上皮内瘤变(CIN)组织、40例宫颈炎组织,采用免疫组
保险是进行风险管理和控制的基本手段。职业学校学生实习责任保险保障制度的建立,有利于推动职业学校顶岗实习的健康开展,保障职业教育人才培养模式的顺利实施,完善职业学校顸岗
研究检验了组织正式(工具性支持)与非正式(职业生涯后果、上级支持)的工作-家庭支持措施对员工相关的结果变量的影响,包括工作-家庭冲突感知、离职意向和工作满意度.数据采用问卷
精神富裕有着特定的内涵。为人之基础、固党之根本、兴族之关键、强国之支柱与立世之依靠是其价值突出昭显。而精神富裕的构建,要坚持主导性、先进性、普适性三原则,构建激发
互联网技术的快速发展,使得数据的重要性越来越明显。无论是研究机构,还是企事业单位对数据的重视程度都提升到了一个新的层面。如何从大量的数据中提取出对于研究或者企业有
当前世界经济增长较为缓慢,欧洲国家经济发展受欧债危机影响持续走低,美国至今未能完全走出次贷危机阴影,新兴经济体和发展中国家的高速增长明显放缓,世界经济总体呈现“弱增
柱塞泵是典型的往复机械。为了掌握往复式柱塞泵的工作状态,测取3S175系列柱塞泵正常工况和一些故障工况下液力端的振动信号,对其进行局域波时频处理后,得到了有价值的检测部
在互联网快速发展、广泛普及的时代下,非结构化数据(文本、图片、图像、视频等)呈爆炸式增长,人们花费在信息筛选的时间也越来越多,如何从大量的数据中挖掘出潜在有用的信息成为了学者们研究的热点。在这种情况下,本文关注文本数据的挖掘,利用聚类算法对文本数据进行组织、归类,发现有用的信息,减少人工整理文档的工作量,具有广泛的应用场景和深远的研究意义。本文聚焦于文本聚类应用,分析传统聚类算法的一些优势和不足,
试验旨在研究菜粕型日粮中添加植酸酶和木聚糖酶对肉鸡生长性能,小肠氨基酸、矿物质元素表观消化率的影响。选取健康、体重一致的1 d雌性AA商品代肉仔鸡480只,采用完全随机设