基于Scrapy技术的数据采集系统的设计与实现

被引量 : 0次 | 上传用户:hls123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着信息技术的不断发展和创新,互联网技术将各种数据以它极其快速和全方位的方式渗透到我们的日常生活当中。海量的互联网数据资源蕴含着巨大的价值财富,如何采集和利用这些数据成为了一个热门研究领域。手动编写网络爬虫程序,从互联网上采集人们需要的数据,对非计算机技术人员势必难度较大,而且实现效率低,不易于管理。基于此,探讨了一种基于Scrapy爬虫框架的数据采集系统的设计与实现,以提高数据采集整体效率,降低工作难度,并且便于用户管理。该文首先介绍了开发背景、意义和现状,然后介绍了系统设计的相关技术,对系统的需求进行了详细地分析。讨论了系统设计原则,设计了系统的总体结构。在此基础上,设计并实现了基于Scrapy爬虫框架的数据采集系统。系统架构分为三层,表示层采用了Html+jQuery+Bootstrap的组合来呈现网页,业务逻辑层由Web应用框架Django和数据采集框架Scrapy组成,数据层使用MySQL关系型数据库管理系统。Django具备较为完美的模版机制、对象关系映射机制,还能够创建出动态管理后台信息的界面。Scrapy是一个为了爬取网站数据、提取结构性数据而编写的爬虫应用框架,可以应用在包括存储历史数据、数据挖掘、信息处理等一系列的程序中。最后对系统进行了测试,测试结果表明,设计和实现的系统达到了系统的需求。将Scrapy爬虫框架应用到Django框架上,实现了爬虫程序的自动化生成。系统功能基本完善,界面友好。用户可以设计和管理自己的网站采集任务,相比传统的手动编写爬虫程序,不仅难度低,效率高,而且便于用户管理采集到的数据。
其他文献
基于旧工业建筑(OIB)功能转型的产业园项目,有其系统性管理和多种综合效益需求。目前产业园存在着重改造,轻运维,重利用,轻管理的问题,使得产业园的运营维护(以下简称运维,O&
本论文是借笔者参与曲阜、邹城文化片区文物保护规划工作之机,通过项目前期实地调研、中期分析研究和和后期的阶段性成果对曲阜、邹城文化片区文化遗产的关联性进行的基础性
本文拟从云计算和云会计基础理论的角度出发,详细阐述云计算基础概念及云会计基础概念,结合当前云计算技术对云会计体系进行分析,指出中小企业为云会计应用的主力军,在中小企
朝鲜族移民题材长篇小说《苦难的年代》、《泪洒豆满江》、《间岛传说》等三部作品以共同的语言意识、历史意识、现实主义意识作为根基,是一脉相承的文学作品。但因作者所处
随着时间的推移,人们对民窑青花的关注,也变的越来越强烈起来。其中,景德镇民窑青花,又是历史上成就最为显著的,所以更加受到人们的青睐,我也深受其吸引。然而,对于明末景德
采用水热法制备了正交相的WO3·0.33H2O纳米粉末,通过对水热产物在不同温度下进行真空退火1h后得到不同晶相的WO3纳米粉末。对退火所得的不同的WO3纳米粉末用X射线衍射、扫描
企业短期融资活动中经常会使用到的一种非现金支付手段,被称之为票据业务,其能够有效缓解当前国内众多企业面临的企业资金短缺问题,对促进我国国民经济的健康发展有重要意义
<正>[本刊讯]近日,山西文联党组书记郭健、党组成员靳忠等同志带领文联机关党员干部赴山西省浑源县蔡村镇文庄村、东留村、师家号等三个贫困村与建档立卡的贫困户进行结对帮
目的:研究老年急性缺血性脑卒中患者血压变异性(Blood Pressure Variability,BPV)、血压昼夜节律及相关危险因素的关系。方法:选取住院老年患者85例,分为正常血压组,共16例,
传统发酵乳制品具有独特的风味品质、营养价值和丰富的菌种资源。由于发酵微生物的区系复杂多样,传统发酵乳品的风味品质形成机理不清、质量安全无法保证,阻碍了传统发酵乳制