基于Scrapy-Redis的分布式农业网络数据采集平台设计与实现

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:tom95800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
农业领域内的信息化建设历经多年,取得了较为优异的成果,各大网站上的农业信息资源百花齐放。但是,由于农业信息化进程开展在旧有体制框架下,其根基较为薄弱,使农业信息资源具有海量性和分散性的特征,造成了日益丰富的网络信息资源与缺乏个性化的数据采集平台之间的矛盾,农业信息资源的浪费和采集平台的贫乏共存。在这种情况下,如何对农业领域数据采集方式进行革新换代成为了现代信息技术在农业领域的重要应用型课题。网络爬虫作为采集数据的工具常常是解决这一问题的关键。针对上述问题,本研究以Python和Scrapy框架环境为基础,以农业领域的气象网站与农产品价格为爬取对象,探索性地设计了一种基于BERT模型的主题内容识别算法,用于评估待爬取网页链接与主题内容的相关性,最后实现了基于Scrapy-Redis的分布式农业网络数据采集平台。本研究的全部工作主要分为5个部分:(1)针对传统搜索引擎返回结果不具有行业化的缺点,本研究设计了一种基于Python的Xpath主题内容提取算法与一种基于BERT模型的农业主题内容识别算法,重点研究了通过基于BERT模型的农业主题内容识别算法如何评估网页链接与主题内容的相关性,并将其应用于采集农产品价格的项目中。研究表明,该算法在农业领域的自然文本分析方面有相对较高的识别效果。(2)针对网络爬虫技术能否应用在农业领域的问题,本研究选用了操作简单、功能完备的Scrapy框架,设计了一个基于Scrapy框架的农业气象网络数据采集的试验,验证了Scrapy框架在农业主题领域的适用性,也为随后使用网络爬虫采集农业网络数据奠定了基础。(3)针对通用网络爬虫采集信息速度慢的缺点,设计了一个基于Scrapy-Redis的分布式爬虫框架,并将其应用于农产品价格的采集中。主要是针对农业领域的项目二次开发Scrapy单机框架中的Schedule组件与Item Pipeline组件,使其能完成分布式采集的任务。分布式模块由1个Master主机、4个Slave从机组成。研究表明,与单机网络爬虫相比,分布式爬虫在采集数据速度上有成倍的提升效果。(4)针对部分网站对于爬虫程序的攻击,设计了一个保护爬虫机制,预置了一些应对反爬虫的策略,如通过发送User-Agent校验反爬、调整访问频度等,有效地规避了被攻击的风险,加强爬虫系统的鲁棒性,巩固农业领域网络数据平台的稳定性。(5)设计了一个面向农业领域的网络数据采集平台。使用Qt等程序框架,对所设计的各个采集模块进行可视化界面设计。基于以上工作,本研究将所设计的主题内容识别算法和网络爬虫技术相结合,实现了一个基于Scrapy-Redis的分布式农业网络数据采集平台。
其他文献
随着云计算的普及,社会已开始形成往云服务器存储个人数据的风气,从而减少本地的存储开销以及给数据共享带来了便利。然而,将数据存储至云端服务器,也给数据的拥有者带来了不可控性。将数据加密后再存储至云服务器,会使用户对数据的检索造成不便。可搜索加密的提出,既能享受云存储的便利,又能保证数据的安全。支持等值测试的可搜索公钥加密是可搜索加密体系的一个分支,支持在不解密的情况下测试两组由不同公钥加密所得的密文
柑橘是我国的一种重要经济作物。目前,我国柑橘果树的主要植保方式为人工地面植保和地面植保机植保,果树的冠层叶面施药效果较差,叶面难以吸收养分,效率低并且耗费劳动力。近些年随着无人机的快速发展,利用无人机精准植保也逐渐开始推广,无人机因其质量小、机动性好、可灵活调整飞行速度、施药高度可控等优点广受欢迎。由于无人机空中施药是高处向下自然喷洒,既能喷洒到果树冠层叶面,药物还能向下流淌对底层叶片进行施药,同
近年来,随着云计算技术和云存储服务的快速发展,越来越多的用户选择将数据外包给公开的云服务器。然而,公开的云服务器作为第三方服务提供商是不可完全信赖的。为了保证用户数据和隐私,用户选择加密明文数据然后外包到公开云服务器存储。虽然外包密文数据极大地便利了用户,但是在密文数据下明文数据检索技术就不会起作用。因此可搜索加密技术便应运而生。在传统基于关键词集的可搜索对称加密技术SSE(Searchable
沙门菌是自然界中分布广泛的一种人兽共患病原菌,常寄生于人和动物肠道内,在污染的蛋奶及其制品、肉类,食品和污水等外环境中也十分常见。沙门菌可引起人类伤寒、副伤寒和食物中毒、胃肠炎、败血症和局部感染等许多疾病。据统计,我国细菌性食物中毒中70%~80%是由沙门菌引起的,其中肉鸡制品是沙门菌食物中毒的主要原因之一。肉鸡在屠宰的过程中容易受到沙门菌污染,从而在后续零售及消费的环节中威胁着人类的健康。定量风
UNIX服务器作为一种商业化计算设备,被广泛应用于许多大型传统企业核心的数据或业务环境中。通常各类UNIX产品都是由操作系统和硬件紧密的整合于一体,作为一个相对独立、可靠性和稳定高的环境平台为大型企业的关键信息处理领域上发挥着重大的作用。随着计算机信息科学与互联网应用的发展,服务器设备环境平台的提供稳定计算能力和不中断的服务显得越来越重要。对于企业核心运行的平台设备,维护设备的硬件和软件环境稳定是
荔枝作为岭南特色水果,素有“日啖荔枝三百颗,不辞长作岭南人”的佳句,而荔枝的生产却极其费时费力,尤其是荔枝采摘,极大的耗费劳动力。随着农村人口向城市转移,大量的劳动力流入城市,导致种植业出现严重的劳动力短缺,而荔枝成熟期十分简短,加之岭南地区炎热多雨,如不能及时采摘将功亏一篑,造成严重的经济损失。荔枝采摘机器人能有效解决劳动力短缺、大规模种植等问题,对降低荔枝生产成本,缓解农业人口流失带来的生产力
利用微阵列技术进行癌症样本数据分析是当前生物信息领域的一个热点研究问题。微阵列技术能够测量基因表达水平,这对癌症早期表现不显著的患者,能够较为准确地从基因表达水平上判断出来;另外,结合机器学习模型,能够有效识别哪些基因在癌症中是重要基因,这给医学研究人员获取细胞癌变内部机理的重要途径。本文针对癌症数据集进行重要基因提取,并做样本分类,需要对数据做预处理、特征提取和分类等处理步骤。数据做预处理是将原
本文主要围绕值分布理论中超越亚纯函数的拟亏值问题以及亚纯函数的唯一性问题展开研究。全文主要包括如下几部分:第一章,主要阐述亚纯函数的值分布理论以及唯一性的研究进展。第二章,简要介绍值分布理论中的基础知识以及一些重要概念。第三章,主要研究超越亚纯函数的Valiron拟亏值问题,证明了:设f(z)是复平面上满足(?)的超越亚纯函数。若(?),则存在一列复数(?),使得集合含于其中(?),即(?)为一个
本论文研制了一种弱酸性的恩诺沙星注射液,并开展了自制恩诺沙星注射液与进口参比制剂在肉鸡的刺激性与比较药动学研究。首先利用单因素实验筛选出了注射液的主要配方成分,再采用正交试验设计,确定了各成分的最佳配比,确定了酸性恩诺沙星注射液的最佳处方。以酸为助溶剂,加入适当的自乳化剂和稳定剂,搅拌溶解,过滤,灭菌后制得酸性恩诺沙星注射液。产品控制p H值在5.0~5.5,澄清透明,含量稳定。依据《兽用化学药物
在传统农资仓储物流行业中,货物的运输方式主要人工搬运、人工驾驶叉车,手动记录货物的运输,甚至在一些保存农药、化肥等环境恶劣的仓库中,工人一般需要准备大量的防护措施,工作效率比较低,且长期作业对人体健康问题造成影响,同时花费大量的时间成本。现对以下几个问题进行研究:(1)仓储环境下,如何通过远程终端,远程发布指令,控制智能叉车作业,同时远程终端依据RFID记录货物的流动,进行货物可追溯管理;(2)针