论文部分内容阅读
[摘 要]随着大数据与云计算、物联网、人工智能进一步融合,各行各业产生了海量电子化数据,建立大数据应用首要解决的问题就是采集数据,其中,Apache Nutch是用于数据采集的爬虫框架。为采集若干人才招聘网站职位需求数据,采用MySQL数据库进行数据存储,采用Nutch实现网站数据采集,采用排程框架Quartz实现数据定时采集和更新。
[关键词]Nutch;分布式;爬虫框架;Crawler Quartz排程
doi:10.3969/j.issn.1673 - 0194.2019.18.078
[中图分类号]TP391.1 [文献标识码]A [文章编号]1673-0194(2019)18-0-03
0
[关键词]Nutch;分布式;爬虫框架;Crawler Quartz排程
doi:10.3969/j.issn.1673 - 0194.2019.18.078
[中图分类号]TP391.1 [文献标识码]A [文章编号]1673-0194(2019)18-0-03
0