论文部分内容阅读
面对互联网的信息极其庞大并且经常更新的情况,该文基于Scrapy爬虫框架设计并实现了优良的数据采集系统。它不仅可以根据用户自身需求获取数据,还可以对自身的采集任务进行简单的管理。介绍了系统开发的关键技术,探讨了系统框架设计、功能模块和数据库设计方案。使用Django MTV模式进行开发,底层数据采集框架使用Scrapy,一种使用Python编写实现的网站数据异步爬虫应用框架,网页解析采用xpath和python正则相结合的方法,采用jQuery树插件zTree实现了任务的树形管理,使用bootstrap实现了数据的任务名加关键字组合查询和页面效果。系统主要分为六大功能模块,网页解析模块,数据处理模块,系统登录模块,任务新建模块,任务管理模块和数据查询模块。最后分析了浏览器端和服务器端的数据交互的实现,以及网页数据定位和解析的实现。