论文部分内容阅读
摘要:互联网及移动互联网的快速发展为农民提供了便捷,越来越多的农民学会了上网,更学会了使用网络为农业生产提供服务,网络搜索各种农业次生灾害的解决方案成为农民使用上网查询的首选。民众的搜索日志对于搜索引擎来说只须要稍加处理,便能使用当下流行的大数据技术为农业生产提供服务,本试验提出基于用户搜索行为的农业安全预警模型,能够比政府气象部门提前3~15 d预报各区域即将发生的影响农业生产的安全事件,既可以为农民提供预警行为,又不需要政府投入巨额资金,为我国农业发展作出贡献。
关键词:大数据;农业安全;互联网;网络搜索;预警
中图分类号: S126文献标志码: A文章编号:1002-1302(2017)12-0188-04
随着智能手机和“可穿戴”设备的出现,人类自身产生的一些数据逐渐能够被记录和分析。以此为基础的大数据技术快速发展,由此人类社会迈进了一个以数据为基础的新时代[1]。目前,国内外有众多的大数据在公共卫生、科学计算、商业服务等领域的成熟应用,只要深度发掘数据价值,就能使用数据巧妙地激发新产品的设计和新型服务的诞生。因此,大数据与某一行业的结合必能颠覆该行业的传统思维[2],引来新思路,联系到我国农业安全预警方面与国外差距巨大,那么将大数据与农业安全预警相结合,必能找到我国自主预警发展道路,能够更加快速、高效、低成本地实现农业安全预警[3]。
1我国农业安全预警现状
1.1国外现状
国外在农业安全预警方面发展较快,很多发达国家采用人工调查地面大面积样方统计法,如美国国家农业统计局(NASS)依靠收集到的人工观测数据,对种植意向、实际种植面积、自然灾害、作物单产及总产进行预报预警工作;在收获将近结束时,给出其实际总产量的评估结果。欧洲国家采用的是作物产量和生产情况报告制度,由汇报员在作物的生长期内对作物的生长进行观察,然后对可能的单产及可能产生的自然灾害作出预报预警,收获后对作物单产作出最终的报告。日本在农业预警方面研究较为深刻,其研究包括:(1)利用作物环境参数进行统计的气象统计模式;(2)利用作物生理生态要素进行产量预报的生态统计模式;(3)作物生长统计模式;(4)利用遥感技术大范围获取作物信息进而进行产量预报的模式。
1.2国内现状
中国人口众多,粮食产量居于世界首位。粮食生产是国民经济的基础,农业生产力水平将影响国计民生。如果能把农业问题解决好,将极大地促进中国的经济发展乃至社会稳定。为了增加政府宏观调控的可操作性,使农业方面的宏观调控与管理有规律可循,就须要对农业安全发展趋势进行了解和判断。因此,加强对农业安全预警研究具有重要意义。
国内也进行了关于农业安全预警系统的相关工作,取得了一些成绩和成果。很多农业安全预警系统的设计是将信息系统与预警系统进行结合,偏重于农业安全监测和产量预报。与国际先进水平相比,还有很大的距离。主要缺陷包括:过分注重信息系统的监测应用,基本上是一个监测系统,而不是预警系统。另外,功能不全、数据不可靠、数据处理及分析不是很精确。在目前的国际国内背景下,农业安全预警系统也在逐渐演变,出现了逐渐与大数据相结合的趋势,本研究旨在应用大数据解决农业安全预警的基础理论工作。
2基于用户搜索行为的农业安全预警
大数据的到来让大家完全有能力改造传统的预警方法,传统预警方法既費时又费力,而且成本巨大,收效甚微[4]。本研究采用百度引擎,从百度上获取影响农业安全的关键词在某一地市的搜索量,然后将收集到的查询数据进行处理,从而形成新的可用数据。结合图形化方法,使用现代信息技术进行处理,能够将中央气象台公布的农业安全数据与查询数据按时空分布显示出来,以此为依据进行判断查询数据是否可以模拟农业安全数据,然后对数据进行分析,找出与农业安全有关的关键词在百度上的搜索量在时空分布上的不同点。最后,利用搜索数据进行农业安全预警。使用这种预警方式可以预估影响农业安全的作物传染病、病虫害等传染情况和时空分布情况。为我国农业安全预警工作提供大数据支持,为农业发展作出应有的贡献。
2.1农业安全预警可监测数据分析
蝗虫是一种食性复杂、易迁飞、暴发时会产生极其严重危害的害虫。一旦发生蝗灾、蝗虫大规模起飞,铺天盖地,发出如狂风呼啸和飞机轰鸣般的声音,犹如雷霆万钧之势,所到之处,农作物、杂草甚至树叶、树皮都可能被吃光。据记载,在我国2 600多年的历史长河中,暴发的重大蝗灾就有800多次,平均每2~3年就有1次区域性蝗灾发生,5~7年就有1次全国性的大规模蝗灾发生,对我国农业造成不可估量的损失[5]。由于蝗灾对我国农业造成了巨大的灾害,且政府相关部门目前并无重大措施对蝗灾进行预警和防治。因此,本研究拟选取蝗灾作为预警研究对象进行大数据研究,以期为政府部门和广大农民提供先期预警,达到降低农业次生灾害对农业本身的伤害。
本研究以百度引擎搜索数据作为监测数据参与分析,选取关键词为“蝗虫”。对“蝗虫”“旱灾”2个词在百度指数上的搜索量进行可视化比对处理,观察二者相关性,以对蝗虫灾害在我国的发展趋势和分布特征进行分析,判断是否会对我国农业造成大面积减产并给出预警信息。
根据蝗虫特点及以往的研究成果,影响蝗灾的主要天气因素是降水量与干旱情况,且研究结果表明干旱与蝗虫同年发生的概率或相关性最大,其次为上一年发生干旱或先涝后旱,蝗虫成片;蝗虫灾害与水、旱灾害常此起彼伏,交替发生,由图1可知它们之间的相关性。而本试验选取的百度指数是以百度引擎搜索数据为基础的一个大数据平台,通过此平台可以查询每天某个词在全国或者特定区域的搜索相对值,一段时期内的走势以及与其相关的新闻舆情变化,哪些人关注这些词?这些人在哪里?同时这些人还搜索了哪些相关的词?百度指数是网络采样的一种具体体现,这里把搜索引擎当成是采样方,这样每个在网上搜索的民众所输入的关键词就是采样样本。不同的人在网上搜索后都会留下相应的搜索痕迹,而这些搜索痕迹的搜索次数被搜索引擎记录下来,经过计算最终形成百度指数蝗虫灾害作为一种农业病虫灾害,自带地域属性,而从搜索引擎得到的数据也具有地域属性,从百度引擎获取到的“蝗虫”“降水量”“干旱”3个关键字数据用可视化方法表达出来,进而研究蝗灾的地域变化特征和聚集性。 2.2蝗虫灾害百度指数数据可视化
蝗虫灾害作为一种农业病虫灾害,自带地域属性,而从搜索引擎得到的数据也具有地域属性,从百度引擎获取到的“蝗虫”“降水量”“干旱”3个关键字数据用可视化方法表达出来,进而研究蝗灾的地域变化特征和聚集性。
2.3网络搜索关键词相关性分析
在蝗虫灾害发生时,会运用网络的人往往希望从搜索引擎获取信息来提高对蝗虫的认知。普通农民会使用模糊查询对该病虫害进行相应的搜索,这时人们搜索的关键词很多,但往往又会集中在一些比较常见的关键词上,如蝗虫、蝗虫的防治,将此类关键词称为普通关键词。另外,由于部分农民和农业知识比较丰富的人员也可能使用引擎查询蝗虫灾害防治,他们使用的关键词可能跟“蝗灾”相关,如干旱、降水量等,将
此类关键词称为相关关键词;最后,一些其他人员在网上搜索一些蝗虫信息,如蝗虫的习性等,将此类关键词称为其他关键词。接下来对几类关键词按照公式(1)进行求和计算。
type=∑ni=1Xim。(1)
式中:type表示关键词类别;n表示关键词数量;m表示周数,该周数是每一个关键词经错位调整达到最大时差相关性的周数。最后把这几类关键词加在一起,就得到了合成搜索指数,计算过程如下:
type=type1 type2 type3。(2)
通过图4分析可知,不同类别的关键词在搜索量的区域分布量上有着惊人的相似之处,说明它们之间的相关性强。但是,关键词的搜索量与蝗虫灾害的严重程度之间的相关性不仅受到当地蝗灾情况的影响,还会受到媒体、人员文化程度、经济发展水平等的影响,通过分析可以发现,发达地区相关关键词的搜索量远远高于不发达的地区,但是在发达地区相关关键词的搜索量同“蝗灾”之间的相关性却不高、甚至远低于不发达地区。普通关键词可以较好地描述发达地区的蝗灾发生情况,也适用于描述欠发达地区的蝗灾发生情况。其他关键词在蝗灾发生区域周围搜索的比率相对较高。3类关键词的合成搜索指数与蝗灾发生区域有一定的相关性。
2.4利用用户搜索数据进行安全预警
2.4.1构建预警模型本研究采用基于BP神经网络的搜索行为预警模型,模型图如图5所示,这是一个“输入→处理→输出”的过程。
输入是3类搜索指数和1类合成指数,输出就是需要的5种预警结果。本试验采用3层BP神经网络(输入层、隐性层、输出层)的网络结构,输入节点数是4,输出节点数是5。
2.4.2搜索与合成指数归一化处理本研究涉及的搜索及合成指数均是负指数。负指数是指指数值越小,越好的指标,在预警研究过程中,指数值越小代表越安全,危机等级就越小[6]。其若无量纲,则以最大值为基准,无量纲化处理方式如下:
Y=Yi-YminYmax-Ymin。(3)
式中:Y表示量化后的指数值;Yi表示指数的实际值;Ymin表示指数的最小值;Ymax表示指数的最大值。
2.4.3输出及隐性层处理安全预警共分5个等级,分别是无蝗灾、个别区域蝗灾、一般蝗灾、较大蝗灾、重大蝗灾。输出5个节点,每个节点的输出状态分别为00 001、00 010、00 100、01 000、10 000,分别对应5个安全预警级别。隐性层节点数量采用公式(4)来确定。
X=x y λ。(4)
式中:x表示输入层节点个数;y表示输出层节点个数;λ表示1~10之间的常数。
2.4.4数据处理搜索指数及合成指数选择2011年1月至2016年10月的数据作为处理样本,以搜索次数为单位,1周为最小时间段,总共304周,这样各个时间点的数据就有了可比性,原始数据见表1。
2.4.6结果分析据Matlab仿真训练结果显示,实际输出结果与期望输出(00 010) 一致,发出预想的预警信号(00 010),表明此时蝗虫灾害的预警等级处于轻度预警状态。经实践证明,本试验所研究的网基于用户搜索行为的农业安全预警设计是合理的、可行的。
3结束语
在建立用户搜索数据的基础上,构建基于用户搜索行为的预警模型,并通过蝗虫灾害数据进行仿真试验,验证此模型的有效性。试验结果表明,此模型不仅理论上可行,实践上也是可行的。
参考文献:
[1]孙忠富,杜克明,鄭飞翔,等. 大数据在智慧农业中研究与应用展望[J]. 中国农业科技导报,2013,15(6):63-71.
[2]汪洋谈大数据[EB/OL]. [2016-05-06]. http://miit.ccidnet.com/art/32661/ 20140114/5325641_1.html.
[3]许世卫. 农业大数据与农产品监测预警[J]. 中国农业科技导报,2014,16(5):14-20.
[4]张浩然,李中良,邹腾飞,等. 农业大数据综述[J]. 计算机科学,2014(增刊2):387-392.
[5]赵瑞莹,杨学成. 农业预警系统研究[J]. 生产力研究,2004(1):64-66.
[6]陈桂芬,曹丽英,王国伟. 加权空间模糊动态聚类算法在土壤肥力评价中的应用[J].
关键词:大数据;农业安全;互联网;网络搜索;预警
中图分类号: S126文献标志码: A文章编号:1002-1302(2017)12-0188-04
随着智能手机和“可穿戴”设备的出现,人类自身产生的一些数据逐渐能够被记录和分析。以此为基础的大数据技术快速发展,由此人类社会迈进了一个以数据为基础的新时代[1]。目前,国内外有众多的大数据在公共卫生、科学计算、商业服务等领域的成熟应用,只要深度发掘数据价值,就能使用数据巧妙地激发新产品的设计和新型服务的诞生。因此,大数据与某一行业的结合必能颠覆该行业的传统思维[2],引来新思路,联系到我国农业安全预警方面与国外差距巨大,那么将大数据与农业安全预警相结合,必能找到我国自主预警发展道路,能够更加快速、高效、低成本地实现农业安全预警[3]。
1我国农业安全预警现状
1.1国外现状
国外在农业安全预警方面发展较快,很多发达国家采用人工调查地面大面积样方统计法,如美国国家农业统计局(NASS)依靠收集到的人工观测数据,对种植意向、实际种植面积、自然灾害、作物单产及总产进行预报预警工作;在收获将近结束时,给出其实际总产量的评估结果。欧洲国家采用的是作物产量和生产情况报告制度,由汇报员在作物的生长期内对作物的生长进行观察,然后对可能的单产及可能产生的自然灾害作出预报预警,收获后对作物单产作出最终的报告。日本在农业预警方面研究较为深刻,其研究包括:(1)利用作物环境参数进行统计的气象统计模式;(2)利用作物生理生态要素进行产量预报的生态统计模式;(3)作物生长统计模式;(4)利用遥感技术大范围获取作物信息进而进行产量预报的模式。
1.2国内现状
中国人口众多,粮食产量居于世界首位。粮食生产是国民经济的基础,农业生产力水平将影响国计民生。如果能把农业问题解决好,将极大地促进中国的经济发展乃至社会稳定。为了增加政府宏观调控的可操作性,使农业方面的宏观调控与管理有规律可循,就须要对农业安全发展趋势进行了解和判断。因此,加强对农业安全预警研究具有重要意义。
国内也进行了关于农业安全预警系统的相关工作,取得了一些成绩和成果。很多农业安全预警系统的设计是将信息系统与预警系统进行结合,偏重于农业安全监测和产量预报。与国际先进水平相比,还有很大的距离。主要缺陷包括:过分注重信息系统的监测应用,基本上是一个监测系统,而不是预警系统。另外,功能不全、数据不可靠、数据处理及分析不是很精确。在目前的国际国内背景下,农业安全预警系统也在逐渐演变,出现了逐渐与大数据相结合的趋势,本研究旨在应用大数据解决农业安全预警的基础理论工作。
2基于用户搜索行为的农业安全预警
大数据的到来让大家完全有能力改造传统的预警方法,传统预警方法既費时又费力,而且成本巨大,收效甚微[4]。本研究采用百度引擎,从百度上获取影响农业安全的关键词在某一地市的搜索量,然后将收集到的查询数据进行处理,从而形成新的可用数据。结合图形化方法,使用现代信息技术进行处理,能够将中央气象台公布的农业安全数据与查询数据按时空分布显示出来,以此为依据进行判断查询数据是否可以模拟农业安全数据,然后对数据进行分析,找出与农业安全有关的关键词在百度上的搜索量在时空分布上的不同点。最后,利用搜索数据进行农业安全预警。使用这种预警方式可以预估影响农业安全的作物传染病、病虫害等传染情况和时空分布情况。为我国农业安全预警工作提供大数据支持,为农业发展作出应有的贡献。
2.1农业安全预警可监测数据分析
蝗虫是一种食性复杂、易迁飞、暴发时会产生极其严重危害的害虫。一旦发生蝗灾、蝗虫大规模起飞,铺天盖地,发出如狂风呼啸和飞机轰鸣般的声音,犹如雷霆万钧之势,所到之处,农作物、杂草甚至树叶、树皮都可能被吃光。据记载,在我国2 600多年的历史长河中,暴发的重大蝗灾就有800多次,平均每2~3年就有1次区域性蝗灾发生,5~7年就有1次全国性的大规模蝗灾发生,对我国农业造成不可估量的损失[5]。由于蝗灾对我国农业造成了巨大的灾害,且政府相关部门目前并无重大措施对蝗灾进行预警和防治。因此,本研究拟选取蝗灾作为预警研究对象进行大数据研究,以期为政府部门和广大农民提供先期预警,达到降低农业次生灾害对农业本身的伤害。
本研究以百度引擎搜索数据作为监测数据参与分析,选取关键词为“蝗虫”。对“蝗虫”“旱灾”2个词在百度指数上的搜索量进行可视化比对处理,观察二者相关性,以对蝗虫灾害在我国的发展趋势和分布特征进行分析,判断是否会对我国农业造成大面积减产并给出预警信息。
根据蝗虫特点及以往的研究成果,影响蝗灾的主要天气因素是降水量与干旱情况,且研究结果表明干旱与蝗虫同年发生的概率或相关性最大,其次为上一年发生干旱或先涝后旱,蝗虫成片;蝗虫灾害与水、旱灾害常此起彼伏,交替发生,由图1可知它们之间的相关性。而本试验选取的百度指数是以百度引擎搜索数据为基础的一个大数据平台,通过此平台可以查询每天某个词在全国或者特定区域的搜索相对值,一段时期内的走势以及与其相关的新闻舆情变化,哪些人关注这些词?这些人在哪里?同时这些人还搜索了哪些相关的词?百度指数是网络采样的一种具体体现,这里把搜索引擎当成是采样方,这样每个在网上搜索的民众所输入的关键词就是采样样本。不同的人在网上搜索后都会留下相应的搜索痕迹,而这些搜索痕迹的搜索次数被搜索引擎记录下来,经过计算最终形成百度指数蝗虫灾害作为一种农业病虫灾害,自带地域属性,而从搜索引擎得到的数据也具有地域属性,从百度引擎获取到的“蝗虫”“降水量”“干旱”3个关键字数据用可视化方法表达出来,进而研究蝗灾的地域变化特征和聚集性。 2.2蝗虫灾害百度指数数据可视化
蝗虫灾害作为一种农业病虫灾害,自带地域属性,而从搜索引擎得到的数据也具有地域属性,从百度引擎获取到的“蝗虫”“降水量”“干旱”3个关键字数据用可视化方法表达出来,进而研究蝗灾的地域变化特征和聚集性。
2.3网络搜索关键词相关性分析
在蝗虫灾害发生时,会运用网络的人往往希望从搜索引擎获取信息来提高对蝗虫的认知。普通农民会使用模糊查询对该病虫害进行相应的搜索,这时人们搜索的关键词很多,但往往又会集中在一些比较常见的关键词上,如蝗虫、蝗虫的防治,将此类关键词称为普通关键词。另外,由于部分农民和农业知识比较丰富的人员也可能使用引擎查询蝗虫灾害防治,他们使用的关键词可能跟“蝗灾”相关,如干旱、降水量等,将
此类关键词称为相关关键词;最后,一些其他人员在网上搜索一些蝗虫信息,如蝗虫的习性等,将此类关键词称为其他关键词。接下来对几类关键词按照公式(1)进行求和计算。
type=∑ni=1Xim。(1)
式中:type表示关键词类别;n表示关键词数量;m表示周数,该周数是每一个关键词经错位调整达到最大时差相关性的周数。最后把这几类关键词加在一起,就得到了合成搜索指数,计算过程如下:
type=type1 type2 type3。(2)
通过图4分析可知,不同类别的关键词在搜索量的区域分布量上有着惊人的相似之处,说明它们之间的相关性强。但是,关键词的搜索量与蝗虫灾害的严重程度之间的相关性不仅受到当地蝗灾情况的影响,还会受到媒体、人员文化程度、经济发展水平等的影响,通过分析可以发现,发达地区相关关键词的搜索量远远高于不发达的地区,但是在发达地区相关关键词的搜索量同“蝗灾”之间的相关性却不高、甚至远低于不发达地区。普通关键词可以较好地描述发达地区的蝗灾发生情况,也适用于描述欠发达地区的蝗灾发生情况。其他关键词在蝗灾发生区域周围搜索的比率相对较高。3类关键词的合成搜索指数与蝗灾发生区域有一定的相关性。
2.4利用用户搜索数据进行安全预警
2.4.1构建预警模型本研究采用基于BP神经网络的搜索行为预警模型,模型图如图5所示,这是一个“输入→处理→输出”的过程。
输入是3类搜索指数和1类合成指数,输出就是需要的5种预警结果。本试验采用3层BP神经网络(输入层、隐性层、输出层)的网络结构,输入节点数是4,输出节点数是5。
2.4.2搜索与合成指数归一化处理本研究涉及的搜索及合成指数均是负指数。负指数是指指数值越小,越好的指标,在预警研究过程中,指数值越小代表越安全,危机等级就越小[6]。其若无量纲,则以最大值为基准,无量纲化处理方式如下:
Y=Yi-YminYmax-Ymin。(3)
式中:Y表示量化后的指数值;Yi表示指数的实际值;Ymin表示指数的最小值;Ymax表示指数的最大值。
2.4.3输出及隐性层处理安全预警共分5个等级,分别是无蝗灾、个别区域蝗灾、一般蝗灾、较大蝗灾、重大蝗灾。输出5个节点,每个节点的输出状态分别为00 001、00 010、00 100、01 000、10 000,分别对应5个安全预警级别。隐性层节点数量采用公式(4)来确定。
X=x y λ。(4)
式中:x表示输入层节点个数;y表示输出层节点个数;λ表示1~10之间的常数。
2.4.4数据处理搜索指数及合成指数选择2011年1月至2016年10月的数据作为处理样本,以搜索次数为单位,1周为最小时间段,总共304周,这样各个时间点的数据就有了可比性,原始数据见表1。
2.4.6结果分析据Matlab仿真训练结果显示,实际输出结果与期望输出(00 010) 一致,发出预想的预警信号(00 010),表明此时蝗虫灾害的预警等级处于轻度预警状态。经实践证明,本试验所研究的网基于用户搜索行为的农业安全预警设计是合理的、可行的。
3结束语
在建立用户搜索数据的基础上,构建基于用户搜索行为的预警模型,并通过蝗虫灾害数据进行仿真试验,验证此模型的有效性。试验结果表明,此模型不仅理论上可行,实践上也是可行的。
参考文献:
[1]孙忠富,杜克明,鄭飞翔,等. 大数据在智慧农业中研究与应用展望[J]. 中国农业科技导报,2013,15(6):63-71.
[2]汪洋谈大数据[EB/OL]. [2016-05-06]. http://miit.ccidnet.com/art/32661/ 20140114/5325641_1.html.
[3]许世卫. 农业大数据与农产品监测预警[J]. 中国农业科技导报,2014,16(5):14-20.
[4]张浩然,李中良,邹腾飞,等. 农业大数据综述[J]. 计算机科学,2014(增刊2):387-392.
[5]赵瑞莹,杨学成. 农业预警系统研究[J]. 生产力研究,2004(1):64-66.
[6]陈桂芬,曹丽英,王国伟. 加权空间模糊动态聚类算法在土壤肥力评价中的应用[J].