基于LSTM模型的国民经济GDP增长预测建模研究

来源 :经济研究导刊 | 被引量 : 0次 | 上传用户:dongyemeigui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:传统时间序列方法在预测模型中要求时序数据稳定,但对复杂的非线性系统拟合能力较差,但GDP增长的预测精度不够准确。为了提高GDP增长的预测精度,首先利用机器学习算法Random Forest对影响GDP增长的变量进行重要性排序,选取重要变量,之后运用深度学习中的LSTM神经网络对GDP增长进行预测分析,并将预测结果与传统时序型ARIMA及GARCH模型进行比较。实验结果表明,基于递归神经网络的LSTM模型能较准确地反映我国GDP增长的变化规律。因此,LSTM模型在宏观经济预测中具有较高的应用价值。
  关键词:GDP增长预测;LSTM;特征选择;随机森林
  中图分类号:F12        文献标志码:A      文章编号:1673-291X(2021)19-0005-05
  引言
  近几年,全球经济和贸易增长逐渐放缓。国际环境复杂多变,贸易壁垒不断增加,世界经济面临增长乏力的局面。中国经济正在由高速增长阶段转向高质量发展。受全球经济放缓和中美贸易摩擦不确定的影响,经济运行总体平稳,GDP增速放缓。GDP增速反映经济发展趋势,与人民的生活水平息息相关。中国国家统计局数据显示,中国经济经过多年的高速增长后,2015年GDP增速为6.9%,2016—2018年的增速分别为6.7%,6.8%和6.6%。2019年6.1%的GDP增速是近年来最大的一次经济增速下降。能够精准预测GDP增速,对宏观经济目标的可行性和有效性的分析具有重要影响。
  随着经济学的发展,出现了大量的经济预测方法,这些模型主要分为两类:一类是基于时序的外推法,比如移动算数平均法,指数滑动平均法;第二类是基于变量因果关系的因果法,比如回归分析法、计量经济学方法。但总的来看,经济预测工作进展并不顺利,主要体现在预测精度不尽如人意,随着机器学习和深度学习的发展,模型对复杂系统的拟合越来越好。
  本文主要的尝试是:提出一种基于随机森林和LSTM的预测模型,构建多层神经网络更好地拟合宏观经济中的非线性关系和时序关系。
  一、相关研究综述
  目前,国内外对宏观经济预测的研究主要分为以下几类:首先是基于传统的时间序列预测模型。李瑞阁、黄佳艳(2018)利用ARIMA乘积模型对国民经济GDP进行预测研究,表明所选模型能较准确地反映我国季度GDP的变化规律[1];李娜等(2013)利用选定的最优ARIMA模型对我国GDP的增长模型进行预测,并阐明了模型的优良性和稳定性,但由于传统时间序列方法对复杂的非线性关系拟合性较差且无法添加与预测指标相关的变量,预测精度难以提高[2]。之后,学者们转向对非线性系统拟合较好的机器学习算法进行宏观经济预测。Wang&Shang(2014)、Wang等(2016)将改进SVM模型应用于证券与股票指数预测中,证明了改进支持向量机模型预测的有效性[3~4]。然而在经济领域数据之间普遍存在时序关系,机器学习算法不能较好地反映样本间的时序关系。随着机器学习领域中深度学习的研究和发展,其中的递归神经网络(RNN)适用于处理序列数据。但是由于RNN存在长期依赖问题,Hochreiter和Schmidhuber(1997)提出RNN的改进模型LSTM神经网络[5],并被Alex Graves等(2013)进行改良和推广,使LSTM得到更广泛的应用[6]。Fu等(2017)针对交通流的随机性和非线性特征,使用LSTM和门控循环单位(GRU)神经网络方法来预测短期交通流量,实验证明基于递归神经网络的LSTM和GRU模型表现优于ARIMA模型[7]。
  根据以上分析,本文主要是利用LSTM模型对中国宏观经济变量GDP增速进行预测分析。考虑影响经济的众多可能因素,在此分析过程中利用机器学习Random Forest算法提取影响经济发展的重要特征指标,通过LSTM算法对这些指标数据进行学习训练,对宏观经济进行预测分析。最后与时间序列预测模型(AR,MA,ARIMA)结果进行对比,可以看出LSTM算法在预测时序问题中具有精确高效性。
  二、随机森林和LSTM预测模型
  (一)随机森林评估特征的重要性
  随机森林特征重要性评估能够辅助我们对特征进行筛选,从而使模型的鲁棒性更好。
  特征重要性选择的目的:寻找与响应变量高度相关的重要变量,便于变量选择,使少数变量足以很好地预测响应变量[8]。
  随机森林进行特征重要性评估的思想为:通过袋外(out-of-bag,OOB)数据误差增长百分率指标衡量特征重要性。
  假设随机森林有N棵树,第K棵树的误差增长百分率如式(1):
  其中,errOOBK1代表袋外数据误差,errOOBK2是对袋外数据对应变量加入噪声干扰或者改变样本在特征变量x处的值,再次计算得到的袋外数据误差。对于N棵决策树,如果加入随机干扰后,errOOBK2的值大幅上升,即误差增长百分率大幅上升,说明特征的重要程度比较高[9]。
  随机森林根据特征重要性进行特征选择的步骤如下:
  第一步,估计和排序。一是对随机森林的特征变量按照变量重要性(Variable Importance,VI)降序排序。二是确定删除比例,从当前的特征变量中删除相应比例不重要的指标,从而得到一个新的特征集。三是用新的特征集建立新的随机森林,并计算特征集中每个特征的VI并排序。四是重复以上步骤,直到剩下m个特征。
  第二步,根据第一步得到的每个特征集和建立的随机森林,计算对应的袋外誤差率(OOBerr),将袋外误差率最低的特征集作为最后选定的特征集。本文收集的原始数据集中共包含8个变量,1个因变量和7个自变量。根据随机森林特征重要性排序,7个自变量的特征重要性排序如表1所示。从表1可以看出,第6、第7两个变量即货币供应量和固定资产投资,特征重要性比较低,故本文选取前5个变量作为模型的自变量,即人口增长率,M2/GDP,外汇储备,货物进出口总额,财政收入[10]。   其中,M2/GDP,是广义货币(M2)与国内生产总值(GDP)的比值,衡量在全部经济交易中,以货币为媒介进行交易所占的比重。
  (二)LSTM网络模型结构
  LSTM是RNN的一种改进网络,RNN的当前状态At由前一时刻的状态At-1和当前输入xt共同决定,但由于RNN在返向传播的过程中容易产生梯度消失的问题而使模型对太长的时间序列感知能力不足,故RNN适合解决较短时间的时间序列问题。LSTM通过特殊的记忆单元和门结构较好地解决了RNN梯度消失和长期依赖问题。
  LSTM的单元结构由四部分组成,分别是输入门(input gate)、输出门(output gate)、记忆单元(memory cell)和遗忘门(forget gate)。
  三个门控单元的作用分别如下:
  1.输入门。决定是否能把神经元输出值写入记忆单元。当某个神经元的输出写到记忆单元里面时,先通过输入门,当输入门打开的时候,才能把值写入记忆单元。
  2.输出门。决定其他的神经元可不可以把值从记忆单元里面拿出来,当输出门打开的时候,外界才可以把值从记忆单元里面读出来。
  3.遗忘门。决定之前记忆单元里面存的值是否保存下来。
  整个LSTM模型可以看成4个输入和1个输出,4个输入是:想要存进记忆单元里面的值、控制输入门的信号、控制输出门的信号、控制遗忘门的信号[10]。
  LSTM按时间维度展开如下页图2所示。
  在当前t时刻,LSTM的输入值有三个:当前网络的输入值xt、上一时刻LSTM的输出值ht-1,以及上一时刻的单元状态Ct-1;LSTM的输出有两个:当前时刻LSTM输出值ht、当前时刻的单元状态Ct。
  LSTM各个过程的具体运算如下:
  第一步,通过forget gate决定上一时刻的单元状态Ct-1有多少保留到当前时刻Ct。
  而ft为遗忘门输出,表示保留多少信息(1代表完全保留,0代表完全舍弃),Wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量拼接成一个更长的向量,bf是遗忘门的偏置项。
  第二步,通过输入门决定当前时刻网络的输入xt有多少保存到单元状态Ct。
  Sigmoid层决定要更新什么值,用概率it表示。
  其中,WO为输出门权重矩阵,bO为输出门偏置项,Ot为输出门输出,ht为输出门输出结果。
  (三)GDP增长预测模型
  在分析随机林特征选择重要性和长短期记忆网络原理之后,本文提出基于随机森林和LSTM的GDP增速模型。模型根据LSTM模型训练集和测试集损失图如图3所示,将1980—2008年的29条数据作为训练集,将2009—2018年的10条数据作为测试集。在模型的训练阶段,输入信号是影响GDP增速的5个宏观经济指标,分别是:外汇储备、人口增长率、M2/GDP、财政收入、货物进出口总额。输出的是GDP增速预测值。
  三、实证分析
  (一)实验数据来源
  1.采集数据集。数据来源于国家统计局和快易理财网。本文采用1980—2018年时间段的8个宏观变量的共39条数据,6个自变量为货币供应量(M2/亿元),财政收入(Revenue/亿元)、固定资产投资(Investment/亿元)、M2/GDP(%)、货物进出口总额(Import and Export/亿元)、外汇储备(Exchange/亿美元)、人口增长率(Population growth/%)。因变量是GDP增速(GDP growth/%)。
  2.数据特点。一是数据间具有时序关系。基于事物发展的延续性,同时考虑到发展过程中的随机影响,利用过去的信息预测未来状态的经济情况。二是数据样本较少。宏观经济指标一般是以月、季度或者年份以统计单位,自改革开放以来,国家有完整明确的经济数据年份并不多。三是数据样本值变化大。中国的经济发展具有阶段性特征,20世纪八九十年代经济快速发展,但生产技术不高,随着科技的发展,21世纪中国经济高速发展,经过30多年的增长期后,中国经济进入平稳的发展阶段。经济发展的阶段性特征体现在数据上表现为数据值差异较大。
  (二)数据的预处理
  本文对数据进行标准化(Standardization)处理,经过处理的数据符合标准正态分布,即均值为0,方差为1的正态分布。转换函数为:
  Mean表示原数据样本的均值,std为原样本数据标准差。
  1.标准化的原因。宏观经济的数据具有不同的纲量单位,这种情况会影响数据的分析结果,通过标准化,使数据无量纲化。
  2.标准化的目的。通过标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
  (三)对比分析模型
  LSTM网络是一种时间递归神经网络,适合处理和预测时间序列中间隔和延迟较长的事件。本文搭建的LSTM模型中,隐藏层有25个神经元,因为是回归问题,输出层1个神经元,输入变量是一个时间步长的特征,激活函数是线性整流函数(Rectified Linear Unit,ReLU),损失函数采用平均绝对误差(Mean Absolute Error,MAE),优化算法采用Adam,模型采用40个epochs并且每个batch_size为20。
  ReLU的公式为:
  f(x)=max(0,x)(11)
  (四)與经典模型相比较
  ARIMA模型是典型的时间序列模型,由三部分组成:AR模型、MA模型以及差分阶数组成,因此称为自回归差分移动平均模型。ARIMA模型是在平稳的时间序列基础上建立起来的,因此时间序列的平稳性是建立模型的基础。本文采用的是DF(Dickey-Fuller)检验判断时间序列的平稳性。   本文ARIMA模型的建模步骤如下:
  1.获取被观测系统时间序列数据。
  2.对数据绘图,观测是否为平稳时间序列;对于非平稳时间序列要先进行d(d是差分次数)阶差分运算,化为平稳时间序列。本文数据经过一阶差分后基本没有了随时间变化的趋势,DF检测结果表明在95%的置信度下,数据是稳定的,得出d=1。
  3.经过第二步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF和偏自相关系数PACF,通过自相关图和偏自相关图的分析如图4所示,得到最佳的p和阶数q(p是自回归项数,q是滑动平均项数),得出p=q=1。
  ACF和PACF的判斷标准如下页表2所示。
  4.由以上得到的d、q、p,得到ARIMA,然后对得到的模型进行模型检验。
  GARCH模型是ARCH模型的扩展,称为广义ARCH模型。ARCH模型解决了对时间序列变量由方差恒定的假设所引起的问题,GARCH模型除去和普通回归模型相同之处,对误差的方差进行了进一步的建模。
  由表3可知,参考RMSE与MAE这两个评价指标,传统的时间序列模型ARIMA,GARCH模型的损失函数较大,拟合效果一般,拟合效果最优的是LSTM模型,其RMSE为1.35%,MAE为1.33%。这表明,LSTM预测结果稳定,拥有更好的准确性和泛化能力,LSTM模型比传统的时间序列模型更优。
  结语
  本文LSTM模型是在Python3.7的Tensorflow框架下搭建并完成计算过程。通过Python工具软件对选取的研究数据,进行特征重要性分析,对数据进行预处理,最后建立LSTM深度神经网络模型。并对数据进行一系列统计分析,如平稳性检验、DF检验等,建立传统时间序列模型,得到参数估计。通过不同预测模型之间的对比发现,基于LSTM的深度神经网络模型能有效地对宏观经济进行预测,与ARIMA和GARCH模型相比预测精度更高,更具现实意义。
  参考文献:
  [1]  李瑞阁,黄佳艳.基于ARIMA乘积模型的国民经济 GDP 预测研究[J].南阳理工学院学报,2018,(10):7-12.
  [2]  李娜,薛俊强.基于最优ARIMA模型的我国GDP增长预测[J].统计与决策,2013,(9):23-26.
  [3]  WANG S.,SHANG W.Forecasting direction of China security index 300 movement。with least squares support vector machine[J].Procedia Computer Science,2014,(31):869-874.
  [4]  WANG J.,HOU R.,WANG C.,et al.Improved-support vector regression model based on variable selection and brain storm optimization for stock price forecasting[J].Applied Soft Computing,2016,(49):164-178.
  [5]  Hochreiter S.,Schmidhuber J.Long short-term memory[J].Neural.computation,1997,(8):1735-1780.
  [6]  Graves A.,Mohamed A.R.,Hinton G.Speech recognition with deep recurrent.neural networks[C].International Conference on Acoustics,Speech and Signal Processing,2013.
  [7]  FU R.,ZHANG Z.,LI L.Using LSTM and GRU neural network methods for traffic flow prediction[C]//Proceedings of the 2016 31st Youth Academic Annual Conference of Chinese Association of Automation.Piscataway,2017.
  [8]  Robin Genuer,Jean-Michel Poggi,Christine Tuleau-Malot.Variable selection using Random Forests.Pattern Recognition Letters,Elsevier,2010,(14):2225-2236.
  [9]  Leo Breiman.Random forest[J].Machine Learning,2001,(1):5-32.
  [10]  R.H.Shumway and D.S.Stoffer,Time Series Analysis and Its Applications With R Examples,Third ed.:Springer,2011.
  Abstract:The traditional time series method requires stable time series data in the forecast model,and has poor ability to fit complex nonlinear systems,and the forecast accuracy of GDP growth is not accurate enough.In order to improve the prediction accuracy of GDP growth rate,the machine learning algorithm Random Forest is used to rank the importance of the variables that affect GDP growth rate.After that,important variables are selected,and the LSTM neural network in deep learning is used to predict and analyze GDP growth rate.The prediction results are compared with the traditional time-series ARIMA,GARCH models,etc.The experimental results show that the LSTM model based on the recurrent neural network can accurately reflect the change law of China’s GDP growth rate.Therefore,the LSTM model has higher application value in macroeconomic forecasting.
  Key words:GDP growth forecast;LSTM;feature selection;random forest
其他文献
摘 要:采用SWOT分析法,对青岛市军民融合创新战略环境的优势、劣势、机会、威胁进行梳理,并提出了S0、WO、ST、WT等与青岛市军民融合创新特征相结合的战略对策,对青岛市军民融合创新战略实施具有一定的实践指导意义。青岛在今后军民融合创新发展中应立足于内部的资源优势,把握时代的发展机遇,聚焦军民融合领域自主创新能力的提高,构建以技术共享为基础的军民融合创新发展新格局。  关键词:军民融合创新;SW
摘 要:在中共十九大会议上,习近平总书记强调,进入新时代,我国的主要矛盾已经转化为人民的美好生活需要和不平衡不充分发展之间的矛盾。这种不平衡是普遍的,城乡之间的不平衡就是一种典型的表现形式,为解决这种城乡发展不平衡问题,有必要对马克思城乡融合理论进行梳理,并结合中国现实国情恰当进行选择。采用文献法,对马克思恩格斯和国内学者关于城乡融合概念、城乡关系变化、城乡融合条件与途径进行梳理,并结合中国现实对
摘 要:近年来,保定市科技型中小企业发展迅猛,为推动保定市深化科技体制改革、提升区域创新能力、建设创新驱动经济强市提供了重要保障。科技型中小企业存在的资金供给不足、自身治理结构不完善、自主创新能力有待提高等问题制约了企业的发展,也阻碍了技术创新的进程。在分析保定市科技型中小企业融资现状、面临的融资困境的基础上,提出支持保定市科技型中小企业融资的对策和路径。  关键词:科技型中小企业;创新驱动;融资
随着信息技术的飞速发展,大数据技术的运用随之出现,特别是近几年在涉税信息方面逐渐得到广泛运用,使传统的征管信息问题逐步得到解决。在税务局不断推行强大的税务功能的同时,公权与私权涉税信息共享过程中出现一定的矛盾,导致纳税人的权利缺乏一定的保护。因此,寻求相关的保护途径,界定涉税信息共享就显得十分必要。应厘清涉税信息及保护纳税人权益,建立合法、关联、合理一体的涉税信息标准。
摘 要:江苏省于2012年启动实施高效协同创新计划,按照“需求导向、全面开放、深度融合、擇优支持”的原则,坚持以急需和一流为导向、以协同推进为核心、以创新发展为方向、以产学研结合为主线,引导组织高校与国内外各类创新主体和创新平台紧密合作,建设人才、学科和科研三位一体的高校协同创新中心,促进高等教育与科技、经济、文化的有机结合,提升高校创新能力和服务经济社会发展水平,支撑创新型省份和人力资源强省建设
摘 要:作为国民经济支柱产业,房地产行业在推动全社会经济发展过程中发挥着举足轻重的作用。然而近年来房地产市场持续过热,也造成了一系列严重的经济和社会问题。以“房住不炒”新政为背景,对国内外房地产调控政策进行梳理和诠释,探究房企在新政下面临的现实问题及危机。在此基础上,从战略目标、管理体制、转型升级等多个层面提出针对性应对策略,以期为房地产企业的发展提供借鉴。  关键词:房住不炒;租购同权;应对策略
摘 要:随着全球节能意识的增强,智能电网通过价格机制对用户的用电行为进行调节,削减电网系统的峰谷差,减少了电网用户交叉补贴。在以社会福利最大化为目标的智能电网实时定价模型的基础上,根据用户用电特性对用户进行分类,同时引入维护电网稳定性的影响因子以及科斯定理,构建了一个实时电网定价模型并通过对偶优化对模型求解。仿真实验结果表明,考虑电网稳定性的福利模型不仅能够进一步起到削峰填谷的作用,而且还能够提高
摘 要:近几年来,我国医疗改革事业进入到了高速发展阶段,医院卫生行业的竞争已经不再是医疗设备以及医院规模、投入资金之间的竞争,更是医疗人才的竞争。从我国目前各大医院的发展形势来看,公立医院现有的人力资源已经无法满足人们对健康生活的需求,需要医院加大人力资源管理的力度。论述新医改形势下加强医院人力资源管理的意义,分析公立医院人力资源管理的现状,进而提出一系列解决路径。  关键词:新医改;医院;人力资
在经济新常态背景下,依托某一特色产业的“特色小镇”应运而生.而影视文化小镇是特色小镇中极具代表性的类型,以横店影视文化小镇为例,在深入研究其发展战略和现状的基础上,
摘 要:混合所有制改革是我国新时代国有企业改革的突破口和亮点,对于国有企业在优化资源配置、完善市场化机制、强化内部监督体系等方面将产生深刻影响。随着我国国有企业混合所有制改革相关政策体系逐步完善,当前国企混合所有制改革已从单纯的资本混改跨越到以股权多元化为契机和切入点的机制与体制改革,以搞活企业体制机制作为新阶段的重要目标。目前,国有企业混合所有制改革仍面临一些问题,影响混改落地及改革成效。通过分