基于Hadoop的广域网分布式主题爬虫系统框架

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:emilygl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。
其他文献
语文作文教学受到传统观念影响,存在死板、僵化的情况,不利于新课程改革理念的落实,直接限制到作文教学质量提升。文中结合初中语文作文教学情况,分析提升作文教学质量的方法
阅读速度作为阅读能力的一项重要衡量指标,小学生做语文阅读时的速度较快,则能够在较短的时间内获取更多的知识信息,有利于小学生语文学习的进步。本文将针对小学生语文阅读
新课改已经进行多年,但随着新课改的深入,小学教育教学管理方面的问题也日益突出.小学教育教学管理中存在的问题不仅仅阻碍了新课改的深入,更是降低了小学教学质量,妨碍着学
本报讯(吴清海)农发行乾安县支行认真践行科学发展观,大力支持地方产业化龙头企业发展,各项业务全面提高。$$    在支持产业化龙头企业工作中,乾安县农发行把握信贷政策,加强信
报纸
伴随着新课程改革,小学英语课堂教学迎来新的教育理念,亟须英语教师将"讲授—接受"的教学模式转变为有效的"课堂师生互动模式"。本文结合实际课堂教学,分析目前英语课堂互动教学
随着新课程改革的深入,高中段地理教学所承载的使命、承担的任务也发生着深刻变革,强调着重培养学生利用所学的地理原理和知识去分析生活中的实际问题,解释常见的地理现象的
历史,原本是一个较为庞杂的学科,其中涉及的知识点,需要进行记忆。这对学生来讲,是个不小的压力。如何将初中历史,生动且有趣的展现出来,这是每一位教师应该做到的。下面笔者
<正>一、X企业所属行业特点——中观环境用波特五因素对X企业所属行业进行分析,以阐述在什么样的行业背景下该企业能采用增长型战略。1.新进入者威胁。原料供应与销售渠道是
详细介绍了预处理 水解酸化 生物接触氧化工艺在某制药厂抗生素废水处理上的应用 ,对其成功之处作了总结
据世界知识产权局报告,专利是世界上最大的技术信息源,具有及时、可靠、内容详尽等显著特点,是科技优势的集中体现。目前国内的专利研究主要集中在专利主体上,而专利的文本客体中隐藏了大量的技术信息。利用中国知识产权局专利数据库中汽车专利的标题和摘要两个客体,从中抽取出技术特征,构建专利特征向量,使用有序聚类方法划分国内汽车发展的基本阶段;再利用热点词频和词共现方法分别对划分后的阶段进行分析和对比,揭示每个