基于特征选择和时频分析的径流预测机器学习模型研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:huihuishou4001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确的径流预测是流域管理部门实施防洪、抗旱以及水资源调度决策的重要依据。径流的形成过程同气候、人类活动等多种错综复杂的因素相关联,变化环境下径流数据呈现出高度非线性、随机性和时变性等特点,大量的冗余特征和噪声增大了径流预报的难度。在此背景下,构建高精度的径流预测模型既困难又关键。机器学习是水文领域建模分析的重要技术,为提升水文预报的稳定性和准确性,众多专家学者围绕数据预处理、模型参数优化等方面做了大量尝试。其中,特征选择的目标是从数据特征空间中筛选出最佳建模性能的特征向量(特征子集),它决定了输入机器学习模型的基底数据。当特征向量一定时,提高径流预测精度的关键在于充分发掘有限样本的隐含信息,群智能算法在机器学习模型参数寻优问题上优势明显,能在短时间内找出更具代表性的隐含规律。此外,时频分析技术能从复杂的径流序列中提取隐含规律(高频扰动、中频波动与长期趋势),针对各隐含规律的“分解-重构”建模,能在一定程度上消除各类隐含规律的叠加影响,从而降低建模的难度。以上三方面的改进,促进了水文数据建模性能的提升,但同时也存在特征向量与预测模型兼容性不佳,率定模型参数的方法良莠不齐,“分解-重构”建模的适应性分析不足等问题,阻碍了预测精度的进一步提升。为此,本研究以新疆克孜尔水库月径流数据为对象,从模型参数率定、特征选取和时频分析“分解-重构”建模三方面开展研究,主要研究工作和结论如下:(1)针对现有研究在应用群智能算法率定模型参数时缺乏一个有效研究范式的问题,提出机器学习预测模型参数率定方法论。该方法论有效集成了特征选择方法、群智能算法与机器学习模型。首先,采用滑动窗口方式,将时间序列重组为监督学习问题,再应用特征选择方法,确定特征向量;其次,根据各类机器学习模型参数优化的需求,进行样本划分以及群智能算法编码和适应度函数设计;最后,基于群智能算法的搜索机制,确定最优参数,获取相应的预测模型。通过实证分析揭示特征选择方法、机器学习模型的类型和群智能算法的实际作用与效果。结果表明,在提出的模型率定框架下,使用灰狼算法(GWO)分别率定后的BP神经网络(BPGWO)和支持向量机(SVMGWO),其预测性能均优于传统的模型率定方式。(2)针对径流数据的高维度、小样本,特征间的复杂性和高冗余性,以及现有过滤式和包裹式特征选择方法与预测器脱节的问题,提出基于群体智能的嵌入式特征选择预测模型(EFS-SVMSI)。在机器学习预测模型率定框架中,EFS-SVMSI以特征-超参数混合编码方式替换原有的参数编码方式,实现特征和参数的自适应同步优选。针对标准群智能算法优化能力欠佳的弱点,分别探索三类常用算法改进方式(种群初始化改进,收敛因子非线性改进以及多算法融合改进)的适应性;此外,考虑嵌入式模型的特点,提出定向调优策略改进的群智能算法。仿真结果显示,在所使用的21种算法中,定向调优策略改进后的灰狼算法(DTGWO)构建的嵌入式模型预测性能最佳。最后,从预测性能和特征选择结果两方面对比了嵌入式预测模型与传统特征选择方法建模结果的差异。在预测性能上,借助投影寻踪综合评价方法,综合评价本文建立的57个单一预测模型,结果显示,嵌入式模型普遍优于传统模型。在特征选择结果上,根据特征选取的频率(嵌入式模型)或相关性(传统特征选择方法)将候选特征分为好、较好、一般和差四个等级,嵌入式模型与传统特征选择方法在“好”等级上一致,其余特征等级差异较大。嵌入式模型考虑了特征子集与预测器参数之间的兼容性,实现特征相关性、冗余度与机器学习模型参数三者之间的均衡,因此取得了更好的预测效果。(3)针对时频分析“分解-重构”模型建模时存在的争议,从数据分布特性角度,探索各建模框架预测性能差异的原因。结果显示,后验实验框架建模时,整体分解方式为建立拟合性能高、预测性能强的模型,提供了复杂程度低、代表性强的训练数据,取得了较好的结果,但该框架在实际工作中不能实现。预测实验框架建模时,并行-分步分解方式导致训练集和测试集出现显著的协变量偏移,训练集的复杂程度低、代表性较差,所以,建立的模型拟合性能强、预测性能差。两种改进“分解-重构”模型仿真结果显示,自适应预测框架建立的模型(AFEF-VMDSVM)在丰水期(实测流量值高于2×10~8 m~3)预测结果远高于单一模型,而枯水期较单一预测模型差;因此,在统计分析以上两类模型在年内各时段的预测能力的基础上,根据优势互补原则集成模型。集成后的模型的纳什效率系数NSE和合格率QR(20%)值分别为0.97和81.03%,较单一预测模型提升17.98%和21.4%;该集成建模方式,解决了长期以来单一预测模型汛期预测难的瓶颈性问题,可为渭干河流域水资源精细化管控和克孜尔水库管理工作提供重要的科学依据。
其他文献
棉花是世界上重要的纤维作物,如何提高棉纤维的生产水平,是我国棉纤维生产面临的主要问题之一。发掘棉纤维调控基因、掌握基因调控机制对棉花遗传改良和指导棉花生产具有重要意义。在棉花中,乙烯是棉纤维发育过程中重要的激素调节剂。外源施加适量乙烯促进了纤维的生长,但通过改变内源乙烯来研究棉纤维发育的报道较少。拟南芥酪蛋白激酶PK1及其等位突变基因PK1D128N能够分别造成拟南芥乙烯含量下降或乙烯三重反应,而
杜仲作为东亚地区传统使用的中草药,具有强筋健骨、抗氧化以及降低体脂等功效。本试验以草鱼为研究对象,首先通过草鱼肝脏细胞和肌内成纤维细胞的生长、脂代谢和胶原代谢等指标筛选出杜仲及其主要活性成分,然后将其添加到饲料中进行养殖试验,结合生化指标、肉质评价指标、肌肉组织学和转录组学,研究杜仲及其活性成分对草鱼生长、脂代谢以及肌肉品质的调控及其机理。试验一:杜仲及其活性成分对草鱼肝脏细胞生长和脂代谢的影响为
我国牛羊养殖规模化程度和畜产品产量稳步增加,有力促进了青贮饲料发展。全株玉米青贮饲料是牛羊等草食动物重要的粗饲料来源。目前,由于缺乏科学有效的全株玉米青贮饲料质量分级评价标准,很难做到以质论价、优质优价,容易出现以次充好现象,青贮饲料的品质价值没有得到充分体现,品质和价格之间有利益博弈,青贮饲料质量很难保证。霉菌毒素也是影响青贮饲料品质的重要因素。因此,科学数据模型评价全株玉米青贮饲料质量安全,对
在2001年祁连山地区退耕还林还草工程实施之前,由于人类活动的影响,该地区水源涵养能力下降,导致三大内陆河流域中下游水资源短缺,区域生态系统严重退化。第一期(2001-2011)退耕还林还草工程是一个标志性的重大生态恢复工程,植被恢复政策对祁连山地区自然和社会生态系统产生了多尺度、多层面的复合效应。该阶段植被恢复与农户生计的关系一直缺乏系统探索和凝练,其驱动机理是生态学中的基础科学问题,属于生态学
水资源短缺是制约新疆经济社会快速发展的关键问题因素,水资源空间分布不均,与社会经济发展不匹配的问题日益突显,阻碍了新疆地区的跨越式发展。跨流域调水是解决新疆水资源空间分布不均问题的有效手段,有力缓解新疆天山北坡经济带和新疆东部地区的资源型缺水的问题。跨流域调水通常采用管道输水和明渠输水两种方案,管道输水造价高昂,输水流量低,且后续养护管理不便;明渠输水流量大,相比管道输水价格较低,便于维护。但明渠
气候变化和人类活动已经对全球不同生态系统产生严重影响。青藏高原高寒生态系统具有较强的脆弱性,这些影响导致青藏高原高寒草地生态系统面临不同程度的退化问题。有关其生态系统弹性和退化生态系统恢复的机制研究是重要的科学问题。土壤种子库是生态系统弹性的重要组成部分和维持群落物种多样性的“储蓄池”,能够在地上植物群落受到干扰后对植物群落进行幼苗补充。因此,土壤种子库通常被认为是退化生态系统恢复的重要资源。然而
南极磷虾(Euphausia superba)是世界上最大的动物蛋白来源,其总量约有5亿吨,且南极磷虾蛋白包含所有必需氨基酸,完全符合FAO/WHO对对人类的饮食要求,其生物学价值高于其它肉类蛋白和牛奶蛋白。目前,绝大多数磷虾被用于生产低价值的商品,如动物和鱼的饲料。因此,南极磷虾蛋白的高附加值开发利用是目前的研究重点内容。近年来,采用蛋白质来稳定的Pickering乳液越来越引起人们的兴趣。与常
饲用植物是具有一定的营养价值,可供家畜食用的各种植物资源,它是发展食草家畜的物质基础,对改善和保护人类生存环境具有非常重要的作用。饲用植物在其生长发育过程中要面对不同程度的生物(如病虫害)和非生物胁迫(如干旱、光温、盐及重金属等),这些胁迫严重影响饲用植物的生长发育,进而对饲用植物生产造成极大的负面影响。蛋白质组学是目前研究植物胁迫响应的重要手段之一,尤其是植物与病原物蛋白质间的相互作用(包括寄主
辣椒(Capsicum annuum L.)是我国乃至全世界重要的蔬菜作物,属常异花授粉作物,在产量、品质、抗病(逆)性等方面杂种优势明显。长期以来,雄性不育机制是辣椒育种的研究热点,利用辣椒雄性不育系是实现辣椒杂种优势、开展辣椒遗传育种的主要方式之一。pby-1是本课题组在田间发现的银川羊角椒单核隐性基因雄性不育突变体材料,其不育的分子机制尚不清楚。本研究以雄性不育突变体材料pby-1及野生型材
目的:通过数据挖掘技术多层次、多角度对齐元富教授治疗肺癌的处方用药进行研究,总结齐元富教授治疗肺癌的处方用药规律和相关临证经验。提取齐元富教授治疗肺癌的常用清热解毒药进行体外抗肿瘤实验研究,为中医治疗肺癌的临床疗效提供实验依据。方法:第一部分是病案研究,通过收集齐元富教授门诊及病房治疗肺癌的病案处方,采用数据挖掘技术对病案信息处理,分析患者基本信息、病理类型、症状、舌脉、病机及药物性味、归经情况,