基于支持向量机的时间序列组合预测模型

被引量 : 32次 | 上传用户:qdgong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然科学、社会科学等领域积累了大量的时间序列数据特别是多维时间序列数据,往往既受多个环境因子的影响(需采用回归分析),又自身隐含动态时序特征(需采用自相关分析),同时呈非线性(需采用非线性分析)。预测是认识和决策的依据,发展高精度的时间序列特别是多维时间序列非线性预测分析方法意义重大。当前时间序列分析方法主要沿经典时间序列分析和相空间重构两个方向发展。本文第一部分沿经典时间序列分析方向深入。经典时间序列分析的关键环节为:拓阶、定阶、变量筛选、回归模型选择,前三个环节实际上常与回归模型选择耦联在一起。早期经典的多维时间序列分析模型,如带控项的自回归滑动平均模型(Controlled Autoregressive Integrating Moving Average, CARMA)及其简化模型—带控项的自回归模型(Controlled Autoregressive, CAR)均属线性模型,因而其实际预测能力较弱。基于经验风险最小的人工神经网络如前馈神经网络(Back-propagation Neural Networks, BPNN)具有较好的非线性逼近能力,但存在易陷入局部最小、可解释性差、带有较强的经验性等缺陷。基于结构风险最小的支持向量机(Support Vector Machine, SVM)以统计学习理论为基础,较好地解决了局部最小、过学习、非线性等难题,泛化能力优异,因此,本文回归模型选用SVM作为基本建模工具。1、SLR-LSSVM组合预测模型。利用逐步线性回归(Stepwise Linear Regression, SLR)对因子进行线性筛选,获得保留因子后用最小二乘支持向量机(Least Squares Support Vector Machine, LSSVM)进行非线性建模预测,即为SLR-LSSVM多维时间序列组合预测模型。二代玉米螟百株幼虫虫量与8个气象因子关系的拟合与独立预测表明,SLR-LSSVM优于SLR-MLR、SLR-BPNN、MLR、BPNN、LSSVM等参比模型,说明因子筛选、基于结构风险最小的SVM非线性建模有助于提高预测精度。2、CAR-LSSVM组合预测模型SLR-LSSVM仅考虑了环境因子的影响,未考虑自身隐含的动态时序特征(未拓阶),且其变量筛选基于SLR是线性的。CAR虽同时考虑了环境因子影响与自身动态时序特征,但其拓阶、定阶是线性的(基于MLR),变量筛选也是线性的(基于SLR)。借用CAR的思想,本文发展了非线性的CAR-LSSVM多维时间序列组合预测模型:先基于LSSVM以均方误差(Mean Squared Error, MSE)最小原则实施模型非线性拓阶、非线性定阶,再基于LSSVM对定阶后自变量进行非线性筛选获得保留自变量,最后基于LSSVM以保留自变量建模预测。大豆食心虫虫食率与5个影响因子关系的独立预测表明,CAR-LSSVM预测性能明显优于MLR、SNR(基于LSSVM的非线性逐步回归模型)、LSSVM、SLR-LSSVM、CAR等参比模型,说明非线性地统一考虑环境因子影响与自身时序特征、非线性定阶与非线性筛选变量是必要的。3. GS-LSSVM组合预测模型CAR基于F测验线性定阶和CAR-LSSVM基于MSE最小原则非线性定阶的共同缺陷包括:一是由低阶到高阶逐步拓阶,过程繁琐。二是因变量连带自变量同时拓阶,既易造成信息冗余、变量筛选时间增加,又易造成拓阶提前终止,降低模型预测精度。本文基于地统计学(Geostatistics, GS)与LSSVM,建立了一种快速定阶、既反映样本集动态特征又体现环境因子影响的高精度非线性时间序列组合预测模型GS-LSSVM:先基于地统计学后效时间长度进行因变量快速、充分拓阶、定阶;然后采用主成分分析消除自变量之间的信息冗余;最后以一步预测法检验GS-LSSVM的有效性。小样本松毛虫发生面积一维时间序列实例独立预测表明,GS-LSSVM模型明显优于LSSVM、GS-BPNN等参比模型。晚稻第五代褐飞虱发生量与4个气象因子的多维时间序列实例独立预测表明,GS-LSSVM预测精度高于GS-BPNN等参比模型,且稳定性最好,定阶快速准确。GS-LSSVM既反映样本集动态特征又体现环境因子影响,并避免过拟合、避免局部最小缺陷,具有非线性、泛化能力优异等优点,在时间序列预测领域有较广泛的应用前景。4、ARIMA-DSVM组合预测模型随着时间的推移,训练样本将越来越大,LSSVM占用的训练时间相当长,更为重要的是,对给定的某一步预测,此前历史所有样本均参与训练不一定合适,且每一个样本对预测结果的影响不一样,动态s-SVM (Dynamic s-insensitive Cost Function Support Vector Machine, DSVM)根据“近大远小”的原理,依时间动态调整不敏感损失函数参数(ε)值,保证了距离预测点时间越近的数据对预测结果影响越大,距离预测点时间越远的数据对预测结果影响则越小。差分自回归滑动平均模型(Autoregressive Integrating Moving Average, ARIMA)线性预测能力优异。当研究体系是线性或非线性未知时,本文综合线性ARIMA与动态非线性DSVM发展了ARIMA-DSVM组合预测模型:首先采用ARIMA提取、预测时间序列中的线性组分,然后采用DSVM对ARIMA预测残差进行非线性动态修正。松毛虫发生面积一维时间序列实例独立预测表明,ARIMA-DSVM模型优于ARIMA、DSVM等参比模型。本文第二部分沿相空间重构方向深入。基于相空间重构与LSSVM的时间序列预测包括两个关键环节:相空间重构中时间延迟τ和嵌入维m的确定、LSSVM模型王则化参数γ和核函数宽度参数σ的确定。以往研究中,相空间重构(确定τ和m)与LSSVM建模预测(确定γ和σ)是分步进行的,通过相空间重构确定的τ和m并不总能保证LSSVM有最优的预测精度。因此,不基于任何先验知识、纯粹从数据驱动实施τ和m以及LSSVM参数的联合优化是颇具吸引力的选择。然而,多因素多水平的遍历搜索优化极为耗时。5、GA-LSSVM组合预测模型多因素多水平的遍历搜索寻优极为耗时,而遗传算法(Genetic Algorithm, GA)是一种启发式、快速、并行搜索算法。本文发展的GA-LSSVM组合预测模型以LSSVM为基本建模工具,以GA实现τ、m、γ和σ的联合优化。对Mackey-Glass、加噪Mackey-Glass等一维时间序列实例的独立预测表明,GA-LSSVM稳定有效。6、UD-LSSVM组合预测模型GA是一种启发式算法,易陷入局部最优。均匀设计(Uniform Design, UD)在实验范围内选择具有低偏差趋于均匀分布的好格子点集来安排试验点,可大幅度降低实验次数到允许范围。LSSVM基于结构风险最小,较好地解决了局部最小、非线性等问题,泛化能力优异。本文针对相空间重构的延迟时间、嵌入维、LSSVM参数联合寻优问题,结合均匀设计与自调用LSSVM发展了组合预测模型UD-LSSVM,并对Mackey-Glass、Lorenz、年太阳黑子数等时间序列实例进行了仿真预测,结果表明UD-LSSVM计算复杂度低、预测精度高且优于文献报道,是一种基于数据驱动、快速有效的延迟时间-嵌入维-支持向量机参数联合优合的组合预测模型。
其他文献
尿布皮炎是婴幼儿时期常见病、多发病,也是PICU常见的护理棘手问题。表现为臀部与尿布接触区域的皮肤如肛周、会阴部、腹股沟皮肤潮红、脱屑、糜烂,伴散有针尖大小的红色丘疹或
随着网络技术和办公自动化的高速发展,信息技术已经深入到了社会的每一个角落而手工管理操作也逐渐被自动网络化管理取代,学校又是接受现代化信息的先行者和传播者。因此,学
西奥多﹒德莱塞的小说《美国悲剧》讲述了美国青年克莱德简短而悲剧的一生。学界多从自然主义、现实主义或消费主义的视角对该作展开研究。但是,由于受到时代,意识形态、研究范
基于对社会主义初级阶段的科学认识,我国在国民经济建设中创新性的建立市场经济体制以加速社会主义建设步伐。为符合市场要求,国有企业要在改革过程中实现从国有独资过渡到国
<正>问:哪些人可享受跨省异地就医直接结算?答:目前跨省异地就医住院费用直接结算主要覆盖四类人群:一是异地安置退休人员,也就是退休后在异地定居并迁入户籍的人员。比如回
抽动秽语综合症是指冲动性肌痉挛或伴有秽语的全身性抽搐,运用中医药以解郁化疾开窍法治疗具有一定的效果。
随着互联网的日益发展,网络招聘已成为一项重要的招聘方式,越来越受到人们的重视,人才招聘管理在信息化的今天也要求越来越快速、高效地发展。本文分析了招聘行业的实际需求
在福建省平和国强国有林场、龙海林下国有林场开展不同立地环境条件下台湾牛樟引种造林试验,结果表明,采取1年生扦插容器苗造林,造林成活率为80%~100%,幼苗生长健壮,具有较强
图书馆特色馆藏建设是医院科研能否持续良好开展的关键,也是医院发展的生命线。通过介绍我院图书馆特色建设的一些具体而行之有效的措施和方法,为专科医院图书馆特色数字化建设
自上世纪90年代以来,随着大众文化以更为明显的消费性和娱乐性的姿态出现,在青年中出现了一种亚审美现象,青年的生活学习、社会文化心理由此受到了深刻影响。对亚审美这种现象,我