论文部分内容阅读
近年来,我国洪涝灾害十分频繁,对经济和社会发展造成了巨大的损失。中长期水文预报具有较长的预见期,是一项重要的水利基本工作和防灾减灾的非工程措施,能够使人们在解决以防洪为代表的水资源相关问题时,尽早进行相关工作安排,减小损失以及增加效益。然而水文系统受到多方面因素影响,是一个复杂的系统,传统方法难以满足精度要求。如何引入新的预报模型、提高中长期水文预报的精度显得越来越重要。本文在综述国内外中长期水文预报模型的基础上,以虎跳峡坝区历史径流为研究对象,引入机器学习领域中广泛应用的集成学习方法,为中长期水文预报研究介绍了新的思路。本文首先通过互信息值这一指标分析了虎跳峡坝区的大气环流指数和历史径流等相关预报因子信息,挑选出150个相关指标作为预报特征。在此基础上经过深入研究,选择具有代表性的梯度提升树(GBRT)和随机森林(RF)算法以及结合策略,通过各种方式将回归树这种基学习器集成起来,有效地增加算法的泛化能力和降低过拟合的风险。实例分析中对虎跳峡坝区1959-1992年相关数据进行建模,并详细展示了各算法参数的选取过程,利用1993-2000年月径流资料对几个模型进行预测与验证,并与单一学习器支持向量机(SVM)进行比较分析;随后在利用GBRT和RF的基学习器——决策树划分结点时会将重要结点优先划分的特性,选择了10个最重要特征,并以线性回归为基准比较了各集成学习方法的优劣。研究结果表明,GBRT和RF集成学习方法在不同评价指标下各有优劣,RF预测得到的优秀结果要多于GBRT,但整体平均误差要高于GBRT,二者对径流的预报结果都优于SVM这种单一学习器,并且在非汛期达到很高的预报精度。以GBRT、RF、SVM加权平均的结合策略得到的优秀预报结果有了显著的提高,而其他指标则提高不大或是低于某种单一算法。经过特征挑选后以线性回归为基准比较各算法,各个集成方法在相对误差上显著领先,而均方误差(MSE)差别较小。而经过特征挑选后,普遍结果比不上挑选前。本文的研究过程也提供了研究预报因子的新思路。