论文部分内容阅读
摘 要:为解决传统数据管理平台难以快速、全面地对河流系统进行管理决策的问题,应用大数据技术构建河流大数据平台具有重要意义。从河流大数据的概念、河流大数据平台的架构以及河流大数据平台的实现3个方面对河流大数据平台进行了探讨,提出了构建以Hadoop为基础架构,以信息集成模型、河流健康诊断模型、河流风险预警模型、决策支持模型为驱动,以河流大数据为支撑的河流大数据决策支持平台,实现河流健康的诊断与风险预警,为河长制中河流系统的信息化高效管理提供新的思路。
关键词:河流系统;大数据;决策支持平台;河流健康;风险预警
中图分类号:P338+.9 文献标志码:A
doi:10.3969/j.issn.1000-1379.2020.07.034
Abstract:In order to solve the problem that the traditional data management platform is difficult to make management decisions on river system quickly and comprehensively, it is of great significance to construct a big data platform of river system by using big data technology. This paper discussed the big data platform from three aspects of the characteristic of big data of river system, the structure of big data platform of river system and the realization of big data platform of river system. It put forward the platform constructed by Hadoop-based framework, driven by information integration model, river health diagnosis model, risk warning model and decision support model and braced by big data of river system. Generally, the paper provides a new idea for the efficient management of river system to realize the diagnosis and risk warning of river health.
Key words: river system; big data; decision support platform; river health; risk early warning
自全面推行河長制以来,传统的数据处理方法难以满足海量、多源、异构的河流系统数据的存取应用和河流的高效管理要求[1],利用大数据、云计算等现代技术构建河流管理信息平台日趋重要。2017年5月,水利部印发了《关于推进水利大数据发展的指导意见》(水信息[2017]178号),提出要在水利行业推进数据资源共享开放,促进水利大数据发展与创新应用。这一文件的颁发有力地促进了大数据在水利行业的应用,目前已形成了多个专项大数据平台,如饶小康[2]基于Hadoop分布式集群构建了水利工程灌浆大数据平台;李家杰[3]以地理信息系统为基础构建了城市健康水系统等。这些专项平台在一定程度上解决了水利数据的共享问题,然而目前河流大数据平台依旧较为缺乏,尤其是对广大的中小河流缺乏有效的管理手段,给河流高效管理带来了一定困难。针对这一需求,笔者在分析河流大数据特征和主要类型的基础上,应用大数据和分布式架构技术,探讨河流健康诊断与风险预警大数据平台的设计与构建方法,为河流系统的信息化、智能化管理提供技术和方法参考。
1 河流大数据的概念与分类
1.1 河流大数据的概念
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[4]。中小河流一般是指流域面积小于200 km2的河流,大多分布于农村区域,包括一些末梢河流,包含了大量的数据信息,这些信息具有整体性、开放性、复杂性和不确定性的特点[5]。据此,借鉴大数据的概念,认为河流大数据是指在合理时间内无法利用常规工具进行河流系统信息存储、管理与分析的数据总集,包括河流系统的生态、环境、人文、工程、功能等方面的时空演变数据与实时发生的河流事件数据。
河流大数据和传统意义上的河流数据相比具有以下几个特性:①海量性。随着感知设备与通信技术的发展,涉河的各类数据呈几何级增长,大大超出了个人计算机的处理能力。②多样性。河流大数据涉及空间数据、工程数据、统计数据等多学科、多领域[6-7],是一个多格式、多类别数据集合。③时效性。河流数据涉及多个时间尺度的信息,大量准确的实时数据是河流管理决策实时性、准确性的重要依据[8]。④低价值密度性。河流大数据涵盖面广泛且数据量众多,其数据价值在面对具体对象、具体属性时存在稀疏性的特点。
1.2 河流大数据的分类
根据数据信息来源,河流大数据可以分为:①基础地理信息数据(河流系统自然结构和社会环境的相关信息,如水资源数据、地形地貌数据、社会经济数据等);②河流健康诊断指标数据(河流水质、生物多样性、河网密度、灌溉保证率等);③历史文献数据(文献书籍上的河流系统相关信息以及流域内的历史文化信息);④基于社交网络的多媒体数据(通过微信、微博、网络论坛等提供的文字、图片、音频、视频获取到的河流系统信息)。 2 平台总体架构与功能结构设计
2.1 平台总体架构设计
中小河流健康诊断与预警平台通过集成河流大数据,对多元大数据信息进行统一的管理和分析,该平台自下而上由资源层、数据层、模型应用层和发布层组成,见图1。
资源层包括平台的硬件、软件与网络要求;数据层用于对河流系统原始数据资源进行存取、筛选与分析,为模型应用层提供数据资源支持;模型应用层由模型库和应用程序构成,通过数据层与功能模型的联动实现功能应用需求;发布层用于将处理结果实时传送给决策者。
2.2 平台功能结构设计
中小河流健康诊断与预警大数据平台主要包括河流数据管理、模型库管理、河流健康诊断、河流风险预警、决策支持管理和个人信息管理等6个功能模块,功能结构见图2。
3 平台关键层设计方法
3.1 数据层设计
3.1.1 大数据的采集与存储
河流大数据来源众多,主要通过以下几个途径获取:政府公开网站、水文站监测记录、实地勘察、国内外学术数据库、社交网站对外开放的标准化接口等。
河流大数据从存储方式上可以分为结构化存储、非结构化存储与元数据存储。结构化数据,即可以用二维表结构来逻辑表达和实现的数据,包括河流系统水质、土壤、气候等各类指标,严格遵循数据格式与长度规范存储于分布式文件系统(HDFS)中;难以用二维表结构表达和实现的非结构化数据,包括各种格式的文本、图像、视频、音频等,转化为字节数组字符串以及Base64编码,存储于面向列的非关系型数据库(Hbase)中;河流大数据通过加工与集成构成面向河流系统的数据仓库,基于不同用户的不同功能需求,形成服务于固定需求的多个数据集市。所有数据的名称、存储位置、提取转换加载(ETL)过程等共同构成了河流大数据平台的元数据库(Metadata Base),元数据库将数据编写成网络服务描述语言(WSDL)与外界客户端数据交换互通。河流大数据存储结构见图3。
3.1.2 大数据的筛选与清洗
平台调用河流系统数据库中的原生数据,采用高性能并行计算框架(MapReduce)对数据进行预处理,包括剔除、填补、删除等操作[9]。预处理之后的结果保存回HDFS中,并转换为存储模型,实现对河流大数据的清洗转换。
3.1.3 大数据的提取与挖掘
大数据的处理和分析是河流系统大数据平台最核心的部分。集群基于MapReduce或Spark框架进行并行化设计,运行于多个计算节点,处理大量级数据,针对不同用户的不同数据集以及需求提供不同的算法。由于河流大数据海量性与低价值密度性的特征,过高的特征维度会对河流大数据的分类、回归精度产生负面影响,因此本系统基于数据挖掘的分布式框架(Mahout)中的协同过滤算法,根据不同的任务要求从河流大数据中去除不相关的特征数据,构建较小的河流大数据特征子集,从而提高河流大数据平台的处理速度与精度。
3.2 模型应用层设计
3.2.1 模型库设计
模型库根据模型类型的不同分为描述性模型库和计算性模型库。描述性模型库,即可以用关系表格表达的模型,数据类型以字符型为主,包括河流健康等级模型、风险警度等级模型等;计算性模型库,即由数学公式和相应算法组成的模型,包括权重计算模型、河网汇流模型、流域水动力模型等。
河流大数据平台各功能涉及诸多模型,數据库与模型库快速准确地联动可以极大地提高河流大数据平台处理问题的整体效率[10]。系统模型库存储结构由参数匹配库、特征数据子对象以及程序算法子对象构成。在模型调用时,系统通过读取参数匹配表中的模型码和参数码,确定其特征数据子对象和程序算法子对象,继而通过特征子对象中的接口函数完成模型库与数据库的联通。模型库通过接口得到河流数据,载入到算法子对象,数据库通过接口函数得到模型库中算法子对象计算结束后的反馈结果。模型库数据流向见图4。
3.2.2 模型应用设计
根据河流健康诊断与风险预警大数据平台的要求,模型的功能应用分为信息集成模块、河流健康诊断模块、风险预警模块以及决策支持模块。
(1)信息集成模块。该模块包括对河流系统进行数据录入、数据查询、数据编辑、视图编辑等功能。通过数据转移工具(Sqoop)将关系数据输入和输出Hadoop,实现对河流大数据的录入与导出。通过GIS与Hadoop的集成工具将河流系统数据以空间信息的方式展现出来。
(2)河流健康诊断模块。该模块用于对河流系统的健康状况进行评价与分析。系统针对不同河流系统的特点,采用Mahout中的协同过滤算法构建河流健康与评价指标的各项矩阵,得出平台推荐的河流评价指标。调用模型库中的层次分析模型、模糊层次分析模型等实现指标权重计算,随后调用河流健康诊断模型与专家知识库等得到河流健康的诊断结果。
(3)风险预警模块。该模块用于得出污染物在河流系统中的迁移变化过程及河流健康状况的变化趋势。通过空间大数据提取区域水系结构,构建河网水质模型,与流域水动力模型、污染物迁移模型相耦合,实时预警河流系统中的突发性水污染事件。
(4)决策支持模块。该模块用于结合河流大数据库与人机交互界面,帮助河流系统管理部门提高决策水平。系统通过调用专家知识库对各种结果在河流健康中的价值占比进行定量评估,最终综合各方面影响权重,基于人机交互界面给河流系统管理部门提供最优的决策措施。
3.3 发布层设计
大数据的信息发布层采用B/S(Browser/Sever)[11]和C/S(Client/Sever)相结合的服务模式,以不同的接口为河流管理部门以及普通群众提供服务。河流大数据平台为没有权限的普通用户提供安全数据访问API,用户通过表示层(Browser)提供的可视化交互界面,向中间层提出服务请求,大数据平台再通过中间层发送的请求提供对应的数据服务。该模式在确保数据安全性的同时,为更多的用户提供了服务,主要通过网页、微信公众号、手机APP等途径实现。河流管理部门则可以直接通过面向应用的API访问数据库服务器,保证数据资源的更新与管理速度,提供数据挖掘算法,调用执行服务,主要通过PC端软件实现。 4 平台的应用
以河流系统大数据平台PC端软件为例,应用于浙江省龙游县社阳港。社阳港发源于龙游、金华与遂昌3县交界处东长坪北麓,全长35 km,流域面积194 km2,是典型的山区中小型河流。
4.1 数据采集与存储
河流健康诊断平台以多年连续的河流监测数据、河流健康状况以及实地勘测数据为数据基础。首先将社阳港衢江支流水文监测的实时数据上传至云端数据中心,实时转换、加载至HDFS或Hbase,同时对河段进行实地数据勘测。考虑到河道的空间变异性,根据汇水口位置以及行政区划将社阳港衢江支流分为11个河段,选取11个监测点位,如图5所示。通过数据传输工具Sqoop将河流历史数据及勘测结果数据加载至大数据库,存储于HDFS中。
4.2 数据清洗与筛选
选取1972—2010年间总计45个中小河流健康评价体系中的902项因子进行数据清洗与筛选。首先采用MapReduce对数据进行预处理,消除残缺数据的影响,随后采用协同过滤算法提取其中出现频次较多、对河流健康影响较大的河流评价指标,从而初步确定社阳港河流健康的主要表征因子,数据清洗与筛选过程见图6。
4.3 特征数据选择
通过相关性分析、显著性检验进行进一步的指标合并与剔除,最终选择9个对河流健康影响较强的评价指标,分别为底质、栖境复杂性、堤岸稳定、河道变化、水量状况、植被覆盖、水质状况、人类活动以及土地利用。对2017年的勘测与试验数据进行归一化处理,得到无量纲指标数据,见表1。调用层次分析算法模型得到各指标权重系数,如图7所示。
4.4 河流健康诊断
将得到的指标数据集与权重系数代入河流健康诊断模型,对河段进行健康诊断。该模型基于深度学习的神经网络模型,通过学习多年输入指标值与河流健康等级的对应关系,建立神经网络。系统根据模糊综合评价法内置5个河流健康等级,分别为健康、基本健康、亚健康、疾病和病危,对应的河流健康指数为[0.8,1.0]、[0.6,0.8)、[0.4,0.6)、[0.2,0.4)和[0,0.2)。将输出结果可视化展示,得到的河流健康等级如图8所示。结果显示,河段S2、S3、S10处于亚健康状态,其他河段处于基本健康与健康状态,河道管理人员需要加强河道整治,维护河岸带生态系统稳定性。诊断结果与实际调研的情况基本相符。
5 结 语
针对水利管理部门难以及时存取与分析海量、多源、异构的河流系统数据的问题,基于Hadoop分布式系统基本架构,设计了河长制要求下的中小河流大数据平台,采用B/S和C/S相结合的服务模式提供河流数据管理、河流健康诊断、河流风险预警、管理决策支持等功能,并应用于龙游县社阳港的河流健康诊断工作中,对提高水利部门的行政管理能力以及河长制信息管理系统的完善都具有借鉴意义。
在今后的发展中,为更准确、科学地处理河流系统大数据,需要着重建设基于大数据的河流系统物联网,实现人、河流、平台的实时互联互通,建设更大范围河流信息管理平台,促进河流系统的可持续健康发展。
参考文献:
[1] BRIERLEY G J,FRYIRS K A. Geomorphology and River Management:Applications of the River Styles Framework[M]. New Jersey:Wiley-Blackwell,2005:2-10.
[2] 饶小康.水利工程灌浆大数据平台设计与实现[J].长江科学院院报,2019,36(6):139-145,170.
[3] 李家杰.基于大数据决策支持的城市健康水系统平台构建及应用[D].重庆:重庆大学,2016:20-21.
[4] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[5] 蔡兴勇,周银军.从河流系统角度思考河流治理理念[C]//中国水利学会.中国水利学会2016学术年会论文集(上册).南京:河海大学出版社,2016:94-99.
[6] 叶枫,张鹏,夏润亮,等.基于新一代大数据处理引擎Flink的“智慧滁河”系统[J].水资源保护,2019,35(2):90-94.
[7] KIM Y, KANG N, JUNG J, et al.A Review on the Management of Water Resources Information Based on Big Data and Cloud Computing[J]. Journal of Wetlands Research,2016,18(1):100-112.
[8] 王金平,夏继红,汪颖俊,等.山丘区中小河流滩地时空演化与扰动因子分析[J].中国农村水利水电,2018(12):66-69,76.
[9] 杨东华,李宁宁,王宏志,等.基于任务合并的并行大数据清洗過程优化[J].计算机学报,2016,39(1):97-108.
[10] 林俊强,夏继红,韩玉玲,等.河流健康诊断系统的设计与应用[J].河海大学学报(自然科学版),2009,37(6):640-644.
[11] 洪成,王桂生,周家贵,等.基于云模型和风险矩阵的自然灾害风险评价[J].人民黄河,2019,41(6):14-20.
【责任编辑 张 帅】
关键词:河流系统;大数据;决策支持平台;河流健康;风险预警
中图分类号:P338+.9 文献标志码:A
doi:10.3969/j.issn.1000-1379.2020.07.034
Abstract:In order to solve the problem that the traditional data management platform is difficult to make management decisions on river system quickly and comprehensively, it is of great significance to construct a big data platform of river system by using big data technology. This paper discussed the big data platform from three aspects of the characteristic of big data of river system, the structure of big data platform of river system and the realization of big data platform of river system. It put forward the platform constructed by Hadoop-based framework, driven by information integration model, river health diagnosis model, risk warning model and decision support model and braced by big data of river system. Generally, the paper provides a new idea for the efficient management of river system to realize the diagnosis and risk warning of river health.
Key words: river system; big data; decision support platform; river health; risk early warning
自全面推行河長制以来,传统的数据处理方法难以满足海量、多源、异构的河流系统数据的存取应用和河流的高效管理要求[1],利用大数据、云计算等现代技术构建河流管理信息平台日趋重要。2017年5月,水利部印发了《关于推进水利大数据发展的指导意见》(水信息[2017]178号),提出要在水利行业推进数据资源共享开放,促进水利大数据发展与创新应用。这一文件的颁发有力地促进了大数据在水利行业的应用,目前已形成了多个专项大数据平台,如饶小康[2]基于Hadoop分布式集群构建了水利工程灌浆大数据平台;李家杰[3]以地理信息系统为基础构建了城市健康水系统等。这些专项平台在一定程度上解决了水利数据的共享问题,然而目前河流大数据平台依旧较为缺乏,尤其是对广大的中小河流缺乏有效的管理手段,给河流高效管理带来了一定困难。针对这一需求,笔者在分析河流大数据特征和主要类型的基础上,应用大数据和分布式架构技术,探讨河流健康诊断与风险预警大数据平台的设计与构建方法,为河流系统的信息化、智能化管理提供技术和方法参考。
1 河流大数据的概念与分类
1.1 河流大数据的概念
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[4]。中小河流一般是指流域面积小于200 km2的河流,大多分布于农村区域,包括一些末梢河流,包含了大量的数据信息,这些信息具有整体性、开放性、复杂性和不确定性的特点[5]。据此,借鉴大数据的概念,认为河流大数据是指在合理时间内无法利用常规工具进行河流系统信息存储、管理与分析的数据总集,包括河流系统的生态、环境、人文、工程、功能等方面的时空演变数据与实时发生的河流事件数据。
河流大数据和传统意义上的河流数据相比具有以下几个特性:①海量性。随着感知设备与通信技术的发展,涉河的各类数据呈几何级增长,大大超出了个人计算机的处理能力。②多样性。河流大数据涉及空间数据、工程数据、统计数据等多学科、多领域[6-7],是一个多格式、多类别数据集合。③时效性。河流数据涉及多个时间尺度的信息,大量准确的实时数据是河流管理决策实时性、准确性的重要依据[8]。④低价值密度性。河流大数据涵盖面广泛且数据量众多,其数据价值在面对具体对象、具体属性时存在稀疏性的特点。
1.2 河流大数据的分类
根据数据信息来源,河流大数据可以分为:①基础地理信息数据(河流系统自然结构和社会环境的相关信息,如水资源数据、地形地貌数据、社会经济数据等);②河流健康诊断指标数据(河流水质、生物多样性、河网密度、灌溉保证率等);③历史文献数据(文献书籍上的河流系统相关信息以及流域内的历史文化信息);④基于社交网络的多媒体数据(通过微信、微博、网络论坛等提供的文字、图片、音频、视频获取到的河流系统信息)。 2 平台总体架构与功能结构设计
2.1 平台总体架构设计
中小河流健康诊断与预警平台通过集成河流大数据,对多元大数据信息进行统一的管理和分析,该平台自下而上由资源层、数据层、模型应用层和发布层组成,见图1。
资源层包括平台的硬件、软件与网络要求;数据层用于对河流系统原始数据资源进行存取、筛选与分析,为模型应用层提供数据资源支持;模型应用层由模型库和应用程序构成,通过数据层与功能模型的联动实现功能应用需求;发布层用于将处理结果实时传送给决策者。
2.2 平台功能结构设计
中小河流健康诊断与预警大数据平台主要包括河流数据管理、模型库管理、河流健康诊断、河流风险预警、决策支持管理和个人信息管理等6个功能模块,功能结构见图2。
3 平台关键层设计方法
3.1 数据层设计
3.1.1 大数据的采集与存储
河流大数据来源众多,主要通过以下几个途径获取:政府公开网站、水文站监测记录、实地勘察、国内外学术数据库、社交网站对外开放的标准化接口等。
河流大数据从存储方式上可以分为结构化存储、非结构化存储与元数据存储。结构化数据,即可以用二维表结构来逻辑表达和实现的数据,包括河流系统水质、土壤、气候等各类指标,严格遵循数据格式与长度规范存储于分布式文件系统(HDFS)中;难以用二维表结构表达和实现的非结构化数据,包括各种格式的文本、图像、视频、音频等,转化为字节数组字符串以及Base64编码,存储于面向列的非关系型数据库(Hbase)中;河流大数据通过加工与集成构成面向河流系统的数据仓库,基于不同用户的不同功能需求,形成服务于固定需求的多个数据集市。所有数据的名称、存储位置、提取转换加载(ETL)过程等共同构成了河流大数据平台的元数据库(Metadata Base),元数据库将数据编写成网络服务描述语言(WSDL)与外界客户端数据交换互通。河流大数据存储结构见图3。
3.1.2 大数据的筛选与清洗
平台调用河流系统数据库中的原生数据,采用高性能并行计算框架(MapReduce)对数据进行预处理,包括剔除、填补、删除等操作[9]。预处理之后的结果保存回HDFS中,并转换为存储模型,实现对河流大数据的清洗转换。
3.1.3 大数据的提取与挖掘
大数据的处理和分析是河流系统大数据平台最核心的部分。集群基于MapReduce或Spark框架进行并行化设计,运行于多个计算节点,处理大量级数据,针对不同用户的不同数据集以及需求提供不同的算法。由于河流大数据海量性与低价值密度性的特征,过高的特征维度会对河流大数据的分类、回归精度产生负面影响,因此本系统基于数据挖掘的分布式框架(Mahout)中的协同过滤算法,根据不同的任务要求从河流大数据中去除不相关的特征数据,构建较小的河流大数据特征子集,从而提高河流大数据平台的处理速度与精度。
3.2 模型应用层设计
3.2.1 模型库设计
模型库根据模型类型的不同分为描述性模型库和计算性模型库。描述性模型库,即可以用关系表格表达的模型,数据类型以字符型为主,包括河流健康等级模型、风险警度等级模型等;计算性模型库,即由数学公式和相应算法组成的模型,包括权重计算模型、河网汇流模型、流域水动力模型等。
河流大数据平台各功能涉及诸多模型,數据库与模型库快速准确地联动可以极大地提高河流大数据平台处理问题的整体效率[10]。系统模型库存储结构由参数匹配库、特征数据子对象以及程序算法子对象构成。在模型调用时,系统通过读取参数匹配表中的模型码和参数码,确定其特征数据子对象和程序算法子对象,继而通过特征子对象中的接口函数完成模型库与数据库的联通。模型库通过接口得到河流数据,载入到算法子对象,数据库通过接口函数得到模型库中算法子对象计算结束后的反馈结果。模型库数据流向见图4。
3.2.2 模型应用设计
根据河流健康诊断与风险预警大数据平台的要求,模型的功能应用分为信息集成模块、河流健康诊断模块、风险预警模块以及决策支持模块。
(1)信息集成模块。该模块包括对河流系统进行数据录入、数据查询、数据编辑、视图编辑等功能。通过数据转移工具(Sqoop)将关系数据输入和输出Hadoop,实现对河流大数据的录入与导出。通过GIS与Hadoop的集成工具将河流系统数据以空间信息的方式展现出来。
(2)河流健康诊断模块。该模块用于对河流系统的健康状况进行评价与分析。系统针对不同河流系统的特点,采用Mahout中的协同过滤算法构建河流健康与评价指标的各项矩阵,得出平台推荐的河流评价指标。调用模型库中的层次分析模型、模糊层次分析模型等实现指标权重计算,随后调用河流健康诊断模型与专家知识库等得到河流健康的诊断结果。
(3)风险预警模块。该模块用于得出污染物在河流系统中的迁移变化过程及河流健康状况的变化趋势。通过空间大数据提取区域水系结构,构建河网水质模型,与流域水动力模型、污染物迁移模型相耦合,实时预警河流系统中的突发性水污染事件。
(4)决策支持模块。该模块用于结合河流大数据库与人机交互界面,帮助河流系统管理部门提高决策水平。系统通过调用专家知识库对各种结果在河流健康中的价值占比进行定量评估,最终综合各方面影响权重,基于人机交互界面给河流系统管理部门提供最优的决策措施。
3.3 发布层设计
大数据的信息发布层采用B/S(Browser/Sever)[11]和C/S(Client/Sever)相结合的服务模式,以不同的接口为河流管理部门以及普通群众提供服务。河流大数据平台为没有权限的普通用户提供安全数据访问API,用户通过表示层(Browser)提供的可视化交互界面,向中间层提出服务请求,大数据平台再通过中间层发送的请求提供对应的数据服务。该模式在确保数据安全性的同时,为更多的用户提供了服务,主要通过网页、微信公众号、手机APP等途径实现。河流管理部门则可以直接通过面向应用的API访问数据库服务器,保证数据资源的更新与管理速度,提供数据挖掘算法,调用执行服务,主要通过PC端软件实现。 4 平台的应用
以河流系统大数据平台PC端软件为例,应用于浙江省龙游县社阳港。社阳港发源于龙游、金华与遂昌3县交界处东长坪北麓,全长35 km,流域面积194 km2,是典型的山区中小型河流。
4.1 数据采集与存储
河流健康诊断平台以多年连续的河流监测数据、河流健康状况以及实地勘测数据为数据基础。首先将社阳港衢江支流水文监测的实时数据上传至云端数据中心,实时转换、加载至HDFS或Hbase,同时对河段进行实地数据勘测。考虑到河道的空间变异性,根据汇水口位置以及行政区划将社阳港衢江支流分为11个河段,选取11个监测点位,如图5所示。通过数据传输工具Sqoop将河流历史数据及勘测结果数据加载至大数据库,存储于HDFS中。
4.2 数据清洗与筛选
选取1972—2010年间总计45个中小河流健康评价体系中的902项因子进行数据清洗与筛选。首先采用MapReduce对数据进行预处理,消除残缺数据的影响,随后采用协同过滤算法提取其中出现频次较多、对河流健康影响较大的河流评价指标,从而初步确定社阳港河流健康的主要表征因子,数据清洗与筛选过程见图6。
4.3 特征数据选择
通过相关性分析、显著性检验进行进一步的指标合并与剔除,最终选择9个对河流健康影响较强的评价指标,分别为底质、栖境复杂性、堤岸稳定、河道变化、水量状况、植被覆盖、水质状况、人类活动以及土地利用。对2017年的勘测与试验数据进行归一化处理,得到无量纲指标数据,见表1。调用层次分析算法模型得到各指标权重系数,如图7所示。
4.4 河流健康诊断
将得到的指标数据集与权重系数代入河流健康诊断模型,对河段进行健康诊断。该模型基于深度学习的神经网络模型,通过学习多年输入指标值与河流健康等级的对应关系,建立神经网络。系统根据模糊综合评价法内置5个河流健康等级,分别为健康、基本健康、亚健康、疾病和病危,对应的河流健康指数为[0.8,1.0]、[0.6,0.8)、[0.4,0.6)、[0.2,0.4)和[0,0.2)。将输出结果可视化展示,得到的河流健康等级如图8所示。结果显示,河段S2、S3、S10处于亚健康状态,其他河段处于基本健康与健康状态,河道管理人员需要加强河道整治,维护河岸带生态系统稳定性。诊断结果与实际调研的情况基本相符。
5 结 语
针对水利管理部门难以及时存取与分析海量、多源、异构的河流系统数据的问题,基于Hadoop分布式系统基本架构,设计了河长制要求下的中小河流大数据平台,采用B/S和C/S相结合的服务模式提供河流数据管理、河流健康诊断、河流风险预警、管理决策支持等功能,并应用于龙游县社阳港的河流健康诊断工作中,对提高水利部门的行政管理能力以及河长制信息管理系统的完善都具有借鉴意义。
在今后的发展中,为更准确、科学地处理河流系统大数据,需要着重建设基于大数据的河流系统物联网,实现人、河流、平台的实时互联互通,建设更大范围河流信息管理平台,促进河流系统的可持续健康发展。
参考文献:
[1] BRIERLEY G J,FRYIRS K A. Geomorphology and River Management:Applications of the River Styles Framework[M]. New Jersey:Wiley-Blackwell,2005:2-10.
[2] 饶小康.水利工程灌浆大数据平台设计与实现[J].长江科学院院报,2019,36(6):139-145,170.
[3] 李家杰.基于大数据决策支持的城市健康水系统平台构建及应用[D].重庆:重庆大学,2016:20-21.
[4] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[5] 蔡兴勇,周银军.从河流系统角度思考河流治理理念[C]//中国水利学会.中国水利学会2016学术年会论文集(上册).南京:河海大学出版社,2016:94-99.
[6] 叶枫,张鹏,夏润亮,等.基于新一代大数据处理引擎Flink的“智慧滁河”系统[J].水资源保护,2019,35(2):90-94.
[7] KIM Y, KANG N, JUNG J, et al.A Review on the Management of Water Resources Information Based on Big Data and Cloud Computing[J]. Journal of Wetlands Research,2016,18(1):100-112.
[8] 王金平,夏继红,汪颖俊,等.山丘区中小河流滩地时空演化与扰动因子分析[J].中国农村水利水电,2018(12):66-69,76.
[9] 杨东华,李宁宁,王宏志,等.基于任务合并的并行大数据清洗過程优化[J].计算机学报,2016,39(1):97-108.
[10] 林俊强,夏继红,韩玉玲,等.河流健康诊断系统的设计与应用[J].河海大学学报(自然科学版),2009,37(6):640-644.
[11] 洪成,王桂生,周家贵,等.基于云模型和风险矩阵的自然灾害风险评价[J].人民黄河,2019,41(6):14-20.
【责任编辑 张 帅】