论文部分内容阅读
干旱和洪水灾害已经严重制约了我国的经济建设,国家对水情监控分析的要求也越来越高。现代水文监测系统,不仅需要有准确的短期分析能力,以防御突发的自然灾害;还要有中长期的分析能力,以便制定应对措施。传统单服务器模式的水文监测系统,由于速度慢、能耗高、可扩展性差,已经不能满足新的需求。水利云平台由于具备资源分配和调度的特点,是水利行业水文信息化的发展方向。本文以径流为分析对象,径流指的是单位时间流经封闭管道或明渠有效截面的流体量。在流域的径流分析中,流域的初始水文特征和气候条件是影响未来径流变化的重要因素。因此,确定符合实际情况的初始水文条件和解释因子是提高中长期径流回归分析精度的有效方法。本文研究了Hadoop云计算技术和径流分析的方法,结合径流分析业务,设计和实现了的水文监测分析平台。主要工作如下:(1)采用B/S和C/S的模式,设计基于Web应用服务器的水文信息监测系统。B/S模式直接与用户进行交互,C/S模式用于接收水文采集终端和外部数据。(2)以传统的水文平台为基础,通过额外扩展一个Hadoop计算集群,设计和搭建了一个由Web服务器和Hadoop计算集群组成的水文信息监测平台。利用Hadoop平台的HDFS和MapReduce解决水文大数据的存储和计算问题。HDFS提供了分布式的文件存储,MapReduce提供了并行的数据处理框架。(3)详细研究了随机森林和支持向量在分类回归问题中的应用。相对于单棵决策树,随机森林在保证训练样本分类回归效果的同时,具有更好的泛化能力。由于支持向量机对样本规模要求不高,也被应用于分类回归的问题求解中。本文在水文站径流预测业务的基础上,利用随机森林和支持向量机对黄河流域站点的月径流进行回归分析,通过对比找到合适的分析模型。(4)在随机森林的构建过程中,区别于传统的单机模式,本文采用分布式的方式,将训练过程分解为若干个Map子任务下发至集群的不同子节点完成。子任务全部生成完成后,被返还到主节点的HDFS文件系统中保存,得到完整的模型。实验表明这种并行化的方式,能够提高计算效率,并且随机森林算法对月径流回归也较为准确,是一种可行的径流分析方法。