论文部分内容阅读
摘 要:防汛决策系统建设所涉及的数据来源广泛、数据量大、类型丰富,要求展现的成果具有较高的响应速度和可视化展示界面,传统的信息化建设手段很难达到。本文以大数据服务为背景,在深入研究大数据和综合集成平台的基础上,将大数据相关技术应用到防汛决策系统中,建立了大数据服务下的防汛决策系统。该系统能够根据输入的不同测站、时间段快速生成水位预测结果,并可对结果进行人工审核调整,具有较强的通用性,可对基本信息以及历史水情数据以图、表的形式展示,为防汛决策过程提供高效、可操作的综合系统。
关键词:大数据;云计算;防汛决策系统
引言:
城市化进程在促进社会文明进步的同时,也给城市带来了很多问题与挑战,城市突发洪涝灾害就是其中之一。城市化进程的快速发展,对城市原来的水文环境产生了显著影响,让城市防讯工作面临着更严峻的挑战。随着物联网技术的发展和数据感知技术的成熟,城市中能感知到的数据源快速增加,城市中各种大数据开始涌现。利用大数据对城市洪涝灾害进行有效预测,及时制定防洪减灾相应对策,是城市防讯研究的一个重要课题。因此,本文设计并实现了大数据服务下的防汛决策系统,该系统从公开数据的获取入手,使用计算机对数据进行快速、高效的采集并入库,大大降低数据获取的难度,为城市防汛决策提供了准确、便捷的大数据服务。
一、相关技术概述
(一)大数据采集
数据采集是指将物理世界中的信息按照给定的信息表现方式进行读取的过程。大数据时代,数据的产生方式有了巨大改变,传统的数据多由人工进行输入,是人为产生的,数据是结构化的;而物联网技术的发展,让智能设备应用越来越广,数据来源增多,数据类型复杂多样,数据多为半结构化或非结构化的。大数据采集的难点之一就是数据产生的速度极快且永不间断,因此要求数据采集设备要能快速处理和保存数据,这是大数据的速度快(Velocity)这一特征的体现。
(二)大数据预处理
数据预处理是将采集过程中获取的原始的含有缺失值和噪声的数据转换处理成适合挖掘分析的数据的过程。数据预处理是数据挖掘流程中关键的一步,数据预处理的工作量占整个数据挖掘过程的一半以上,直接关系到最终的质量。大数据往往有多种数据来源,不同数据源的格式各有不同,必须经过多种异构数据进行整合处理。在进行数据挖掘时,先要对数据进行预处理,将缺失的数据进行补全或者去除。数据预处理的方法一般包括数据清理、数据变换、数据融合和数据规约四种方式。
(三)大数据存储
大数据的一个最明显的特征就是数据量非常庞大,而且大数据不仅有结构化数据,还有半结构和非结构化数据,这两种数据所占的比例还在持续增大,传统数据库往往是为结构化数据设计的,这使得人们需要设计新的存储方案来存储大数据。为了存储大量数据并应对数据量的快速增长,必须要有能够支持的水平扩展性、高可靠的分布式数据存储方案。在大数据时代,数据存储不需要很强的事务特性,数据库的高可用性和高可靠性更为重要。
(四)大数据挖掘分析
大数据的数据量巨大、增长速度极快、数据类型丰富多样,传统的常规数据处理技术根本无法应付,这为数据挖掘分析提出了新的挑战。大数据一般存储在分布式文件系统上,在这种文件系统中对文件進行读写操作往往会产生网络访问,因此在对大数据进行挖掘分析时,I/O开销高于计算开销。这个问题可以应用MapReduce编程框架进行解决。MapReduce应用了分治思想,让计算靠近数据,在数据存储节点上运行计算任务,大大降低了I/O开销,最后再将各个节点的计算结果汇总处理后获得最终的运算结果。
二、系统设计
(一)系统功能结构设计
基于知识可视化综合集成平台,依托数据采集、数据预处理、数据挖掘分析技术,结合水位预测公开数据,建立防汛决策系统,为防汛决策提供大数据服务。该系统可以在城市发生洪水时,对决策者提供科学合理的指导,最大化减少损失。防汛决策系统主要可以划分为4个功能模块:基本信息管理模块、水情预警模块、历史水情统计分析模块以及系统管理模块。
1.基本信息管理模块
通过基本信息管理模块,可以对水库、测站、河道的基本信息进行修改、删除、添加以及查询。
2.水情预警模块
(1)水位预测。水位预测是本系统的核心内容,首先根据公开数据采集到水务局官网当天更新的实测水位数据后,与过去采集到的数据组成数据系列,进行数据预处理,然后将预处理后的数据进行挖掘分析,从而对未来1~7天的水位进行预测。如果某个测站的预测值超过警戒值,数据将标红处理,为防汛工作提供参考。
(2)预测数据审核。将水位预测结果导出上报之前,操作人员可对模型预测结果进行进一步判断分析,人工审核有无明显误差。对于人工认定有明显误差的数据,可调整模型参数后再次预测,或对预测结果进行手动校正。
(3)预测数据的导出。该模块能够将经过预测以及审核后的数据,以EXCEL 的形式导出。
3.历史水情统计分析模块
(1)变化趋势查看。可查看指定站点、指定时间段内的水位值,并以折线图的形式展现结果。
(2)水位数据统计。能够统计指定日期范围内的水位数据分布,包括水位数据的平均值、最大值、最小值、众数等。
(3)预测误差分析。提取并对比指定时间范围内的预测值与实测值,得到两者的误差统计表和误差统计图。通过对误差统计结果进行分析,总结该时间范围内水位预测的准确性以及误差变化规律,使其能对以前预测结果进行评价的同时,对今后水位预测的改善提供参考。
4.系统管理模块
通过对数据库、组件库、知识图库进行维护与扩展,达到完善系统缺陷,丰富系统功能的目的。
(二)系统数据库设计 1.数据库设计
防汛决策数据库是基于Windows操作系统、Sql Server数据库软件实现的。根据系统的业务功能将所需数据进行分类,主要包括河道基础信息、水库基础信息、河道水情数据、水库水情数据等。按照不同类别对数据库进行合理的库表结构设计,数据储存的标识符代码编码应符合《基础数据库表结构及标识符》SZY301-2013标准,使得代码具有较好的稳定性、易读性和通用性。其中水位数据是通过公开数据采集获得的,其他部分数据是自动检测或计算生成后自动录入的,有些数据是人工录入的,还有些数据来自其他数据库。防汛决策系统的主要数据表为历史水位数据统计表、测站基本信息表、水位预测表等。
(1)历史水位数据统计表。历史水位数据统计表包括测站代码、测站名称、时间、水位、备注等。
(2)测站基本信息表。测站基本信息表包含站点编码、测站名称、河系、河名以及所属区域、所属单位ID等信息。
(3)水位预测表。水位预测表包含测站编码、预测时间以及七天预测值等信息。
2. 业务组件库设计
防汛决策组件库用以存储已经发布的业务应用组件,其主要作用是为决策者提供业务需求过程中的组件,包括业务数据的获取、计算、存储、展示功能。通过对防汛决策所涉及的主题内容,按业务流程及计算过程中数据流方向进行组件划分,将防汛决策过程中的各部分划分为一个个组件,每个组件可独立运算。对于组件的划分一般没有固定的模式,通常遵循以下三点基本原则:(1)每个组件涉及的功能尽量单一;(2)组件内部各对象的关联程度尽量最大;(3)各组件之间的耦合度尽量最低。
三、系统实现
(一)基本信息管理模块的实现
将测站基本信息、水库基本信息、河道基本信息以及防洪汛限水位等數据集成到本地SQL数据库,通过基本信息管理组件库内各个组件,将这些数据在平台展示,并通过单项数据流的方式,流向下一个组件。
(二)水情预警模块的实现
点击时间定制按钮,时间输入2017-9-3至2018-9-25日,测站名输入“东大桥”,由实测河道水位组件可得东大桥测站在该时段内水位数据,由河道防汛预警组件可预测未来7日水位数据,点击预测数据审核组件,可人工审核修改弹出框内未来7天预测数据。
点击预测数据审核组件,选择预测结果审核(图),弹出预测值与实测值折线图,在折线图左上方点击修改数据按钮,可拖动折线图上的数据节点进行数据修改,修改完毕后,再次点击修改数据按钮,即可提交数据并更新相关组件。预测数据导出组件可将审核后数据xls格式导出并保存在本地。
(三)历史水情统计分析模块的实现
水位数据统计组件和水位变化趋势组件可展示不同测站在指定时间内水位值的数据分布,计算数据的最大值、最小值及众数等。预测误差分析组件可展示一段时间内的预测值与实测值,计算两者间的误差,并以折线图的形式展示出来。
结束语:
随着水利信息化建设的不断完善,物联网传感器设备不断增加,城市防洪减灾相关数据呈爆炸式増长,步入了大数据时代。利用大数据技术对城市防讯工作中采集到的数据进行挖掘分析,为城市突发洪涝灾害的预防与预警提供了一条新途径,具有重要的理论和现实意义。本文从数据出发,基于综合集成平台,将水位预测与防汛决策系统结合,以获取到的数据作为输入,用计算机语言实现水位预测,将预测结果用计算机以数据、图、表格等多种形式展示出来;并利用数据可视化技术为用户提供基本信息查询、水位预报预警、历史数据统计分析及系统管理等功能。
作者简介:
杨永发;男;1979年9月;陕西;汉族;在职研究生;对外经济贸易大学统计学院在职人员高级课程研修班学员;研究方向:大数据分析与应用
关键词:大数据;云计算;防汛决策系统
引言:
城市化进程在促进社会文明进步的同时,也给城市带来了很多问题与挑战,城市突发洪涝灾害就是其中之一。城市化进程的快速发展,对城市原来的水文环境产生了显著影响,让城市防讯工作面临着更严峻的挑战。随着物联网技术的发展和数据感知技术的成熟,城市中能感知到的数据源快速增加,城市中各种大数据开始涌现。利用大数据对城市洪涝灾害进行有效预测,及时制定防洪减灾相应对策,是城市防讯研究的一个重要课题。因此,本文设计并实现了大数据服务下的防汛决策系统,该系统从公开数据的获取入手,使用计算机对数据进行快速、高效的采集并入库,大大降低数据获取的难度,为城市防汛决策提供了准确、便捷的大数据服务。
一、相关技术概述
(一)大数据采集
数据采集是指将物理世界中的信息按照给定的信息表现方式进行读取的过程。大数据时代,数据的产生方式有了巨大改变,传统的数据多由人工进行输入,是人为产生的,数据是结构化的;而物联网技术的发展,让智能设备应用越来越广,数据来源增多,数据类型复杂多样,数据多为半结构化或非结构化的。大数据采集的难点之一就是数据产生的速度极快且永不间断,因此要求数据采集设备要能快速处理和保存数据,这是大数据的速度快(Velocity)这一特征的体现。
(二)大数据预处理
数据预处理是将采集过程中获取的原始的含有缺失值和噪声的数据转换处理成适合挖掘分析的数据的过程。数据预处理是数据挖掘流程中关键的一步,数据预处理的工作量占整个数据挖掘过程的一半以上,直接关系到最终的质量。大数据往往有多种数据来源,不同数据源的格式各有不同,必须经过多种异构数据进行整合处理。在进行数据挖掘时,先要对数据进行预处理,将缺失的数据进行补全或者去除。数据预处理的方法一般包括数据清理、数据变换、数据融合和数据规约四种方式。
(三)大数据存储
大数据的一个最明显的特征就是数据量非常庞大,而且大数据不仅有结构化数据,还有半结构和非结构化数据,这两种数据所占的比例还在持续增大,传统数据库往往是为结构化数据设计的,这使得人们需要设计新的存储方案来存储大数据。为了存储大量数据并应对数据量的快速增长,必须要有能够支持的水平扩展性、高可靠的分布式数据存储方案。在大数据时代,数据存储不需要很强的事务特性,数据库的高可用性和高可靠性更为重要。
(四)大数据挖掘分析
大数据的数据量巨大、增长速度极快、数据类型丰富多样,传统的常规数据处理技术根本无法应付,这为数据挖掘分析提出了新的挑战。大数据一般存储在分布式文件系统上,在这种文件系统中对文件進行读写操作往往会产生网络访问,因此在对大数据进行挖掘分析时,I/O开销高于计算开销。这个问题可以应用MapReduce编程框架进行解决。MapReduce应用了分治思想,让计算靠近数据,在数据存储节点上运行计算任务,大大降低了I/O开销,最后再将各个节点的计算结果汇总处理后获得最终的运算结果。
二、系统设计
(一)系统功能结构设计
基于知识可视化综合集成平台,依托数据采集、数据预处理、数据挖掘分析技术,结合水位预测公开数据,建立防汛决策系统,为防汛决策提供大数据服务。该系统可以在城市发生洪水时,对决策者提供科学合理的指导,最大化减少损失。防汛决策系统主要可以划分为4个功能模块:基本信息管理模块、水情预警模块、历史水情统计分析模块以及系统管理模块。
1.基本信息管理模块
通过基本信息管理模块,可以对水库、测站、河道的基本信息进行修改、删除、添加以及查询。
2.水情预警模块
(1)水位预测。水位预测是本系统的核心内容,首先根据公开数据采集到水务局官网当天更新的实测水位数据后,与过去采集到的数据组成数据系列,进行数据预处理,然后将预处理后的数据进行挖掘分析,从而对未来1~7天的水位进行预测。如果某个测站的预测值超过警戒值,数据将标红处理,为防汛工作提供参考。
(2)预测数据审核。将水位预测结果导出上报之前,操作人员可对模型预测结果进行进一步判断分析,人工审核有无明显误差。对于人工认定有明显误差的数据,可调整模型参数后再次预测,或对预测结果进行手动校正。
(3)预测数据的导出。该模块能够将经过预测以及审核后的数据,以EXCEL 的形式导出。
3.历史水情统计分析模块
(1)变化趋势查看。可查看指定站点、指定时间段内的水位值,并以折线图的形式展现结果。
(2)水位数据统计。能够统计指定日期范围内的水位数据分布,包括水位数据的平均值、最大值、最小值、众数等。
(3)预测误差分析。提取并对比指定时间范围内的预测值与实测值,得到两者的误差统计表和误差统计图。通过对误差统计结果进行分析,总结该时间范围内水位预测的准确性以及误差变化规律,使其能对以前预测结果进行评价的同时,对今后水位预测的改善提供参考。
4.系统管理模块
通过对数据库、组件库、知识图库进行维护与扩展,达到完善系统缺陷,丰富系统功能的目的。
(二)系统数据库设计 1.数据库设计
防汛决策数据库是基于Windows操作系统、Sql Server数据库软件实现的。根据系统的业务功能将所需数据进行分类,主要包括河道基础信息、水库基础信息、河道水情数据、水库水情数据等。按照不同类别对数据库进行合理的库表结构设计,数据储存的标识符代码编码应符合《基础数据库表结构及标识符》SZY301-2013标准,使得代码具有较好的稳定性、易读性和通用性。其中水位数据是通过公开数据采集获得的,其他部分数据是自动检测或计算生成后自动录入的,有些数据是人工录入的,还有些数据来自其他数据库。防汛决策系统的主要数据表为历史水位数据统计表、测站基本信息表、水位预测表等。
(1)历史水位数据统计表。历史水位数据统计表包括测站代码、测站名称、时间、水位、备注等。
(2)测站基本信息表。测站基本信息表包含站点编码、测站名称、河系、河名以及所属区域、所属单位ID等信息。
(3)水位预测表。水位预测表包含测站编码、预测时间以及七天预测值等信息。
2. 业务组件库设计
防汛决策组件库用以存储已经发布的业务应用组件,其主要作用是为决策者提供业务需求过程中的组件,包括业务数据的获取、计算、存储、展示功能。通过对防汛决策所涉及的主题内容,按业务流程及计算过程中数据流方向进行组件划分,将防汛决策过程中的各部分划分为一个个组件,每个组件可独立运算。对于组件的划分一般没有固定的模式,通常遵循以下三点基本原则:(1)每个组件涉及的功能尽量单一;(2)组件内部各对象的关联程度尽量最大;(3)各组件之间的耦合度尽量最低。
三、系统实现
(一)基本信息管理模块的实现
将测站基本信息、水库基本信息、河道基本信息以及防洪汛限水位等數据集成到本地SQL数据库,通过基本信息管理组件库内各个组件,将这些数据在平台展示,并通过单项数据流的方式,流向下一个组件。
(二)水情预警模块的实现
点击时间定制按钮,时间输入2017-9-3至2018-9-25日,测站名输入“东大桥”,由实测河道水位组件可得东大桥测站在该时段内水位数据,由河道防汛预警组件可预测未来7日水位数据,点击预测数据审核组件,可人工审核修改弹出框内未来7天预测数据。
点击预测数据审核组件,选择预测结果审核(图),弹出预测值与实测值折线图,在折线图左上方点击修改数据按钮,可拖动折线图上的数据节点进行数据修改,修改完毕后,再次点击修改数据按钮,即可提交数据并更新相关组件。预测数据导出组件可将审核后数据xls格式导出并保存在本地。
(三)历史水情统计分析模块的实现
水位数据统计组件和水位变化趋势组件可展示不同测站在指定时间内水位值的数据分布,计算数据的最大值、最小值及众数等。预测误差分析组件可展示一段时间内的预测值与实测值,计算两者间的误差,并以折线图的形式展示出来。
结束语:
随着水利信息化建设的不断完善,物联网传感器设备不断增加,城市防洪减灾相关数据呈爆炸式増长,步入了大数据时代。利用大数据技术对城市防讯工作中采集到的数据进行挖掘分析,为城市突发洪涝灾害的预防与预警提供了一条新途径,具有重要的理论和现实意义。本文从数据出发,基于综合集成平台,将水位预测与防汛决策系统结合,以获取到的数据作为输入,用计算机语言实现水位预测,将预测结果用计算机以数据、图、表格等多种形式展示出来;并利用数据可视化技术为用户提供基本信息查询、水位预报预警、历史数据统计分析及系统管理等功能。
作者简介:
杨永发;男;1979年9月;陕西;汉族;在职研究生;对外经济贸易大学统计学院在职人员高级课程研修班学员;研究方向:大数据分析与应用