基于Scrapy的分布式网络新闻抓取系统设计

来源 :现代科学仪器 | 被引量 : 0次 | 上传用户:apple41900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,使改进后的爬虫抓取的数据信息可存储在MongoDB数据库内,以便对数据库直接新闻数据信息的有效处理分析。经过实际应用测试,证明基于Scrapy框架的网络新闻抓取系统相较于传统单机系统具有更高的效率。
其他文献
近日,中共中央办公厅印发了《党委(党组)落实全面从严治党主体责任规定》(以下简称《规定》),并发出通知,要求各地区各部门认真遵照执行。《规定》对落实全面从严治党主体责
文学地理景观的描写在古今作家笔下是有所区别的。只有现代人的确立,才能发现现代之风景。不管是巴尔扎克代表的现实主义作家笔下的风景,还是卢梭代表的浪漫主义作家笔下的风
腾讯养活了不少就业岗位。垄断有时候更有宏观调控的力度,就像天朝。但是垄断也终结了走多好,走多远。再说
2020年1月,习近平总书记再次到云南考察。习近平总书记在考察期间发表的重要讲话和作出的重要指示,深刻阐明了事关云南、昆明发展的一系列方向性、根本性、原则性问题,进一步
3月7日,省委常委会召开会议传达学习习近平总书记近期重要讲话精神,研究我省贯彻工作。会议强调,要认真学习领会习近平总书记在决战决胜脱贫攻坚座谈会上的重要讲话精神,充分
<正>高中历史课堂教学引入科学评价体系,利用辩证唯物主义观点,总结课堂教学规律性认识,为课堂教学带来重要的促进作用。课堂教学评价属于教学反思范畴,教师要树立正确评价观
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
会议
党的十八大以来,国网内蒙古东部电力有限公司赤峰供电公司(以下简称公司)党委全面贯彻新时代党的组织路线,按照国网公司党组和国网蒙东电力党委部署,实施党的建设“旗帜领航&
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
2016年至2019年,云南省委按照"统筹谋划、分类实施、无的要有、有的要强、强的要优"的总体思路,相继实施了基层党建"推进年""提升年""巩固年""创新提质年",着力加强基层党组