论文部分内容阅读
经济发展的必然性使经济预测成为可能,经济发展的偶然性意味着经济预测一定存在误差。经济预测是政府和企业的经济决策、编制计划和经济管理的重要依据,所以经济预测的准确性十分重要。在面对国内外经济环境的复杂性时,机器学习模型在预测领域往往具有更好的预测性能。虽然机器学习模型预测性能较好,但由于模型结构复杂且不透明而只能得到预测的优劣,不能得出影响因素对被解释变量的影响程度和显著性。也就是说,机器学习模型在可解释性和准确性之间做出权衡。此外,机器学习模型大多是非参数模型。所以,机器学习模型的“黑箱问题”阻碍了其在实际中的运用,而且不透明的机器学习模型的应用可能会导致道德、安全、隐私和越来越多的法律问题。本文的主要研究思路是使用嵌套的交叉验证方法训练神经网络、支持向量机、随机森林、极端决策树和XGBOOST模型,采用均方误差和R~2对比机器学习模型和线性回归模型在长期预测和短期预测中的预测准确性。在确定了机器学习模型的预测性能的确优于线性回归模型后,计算在长期预测和短期预测中预测性能都有较大提升的随机森林、极端决策树和XGBOOST三种模型的Shapley值,然后利用不同时间的Shapley值比较影响因素在不同时间的大小以及利用整个预测区间的平均绝对Shapley比较影响因素的大小。然后使用Shapley回归将机器学习模型和计量经济学联系起来,分析国债收益率利差、物质资本、对外开放程度、人力资本、技术、股票市场规模、流动性和融资率对GDP的影响程度和显著性。本文研究发现主要有六点。第一点是使用更高频率的混频数据会提高预测的准确性。第二点是股票市场发展与经济发展不相适应。第三点是在长期和短期预测中,机器学习模型中支持向量机的预测并没有优于线性回归模型,神经网络、随机森林、极端决策树和XGBOOST模型的预测准确性要比线性回归模型高,其中随机森林、极端决策树和XGBOOST的预测准确性提高的最多。第四点是人力资本在长期和短期预测中都是最重要的影响因素,物质资本在长期预测中是重要的影响因素。第五点是股票市场规模在长期预测和短期预测中都不能用于经济预测。第六点是对外开放程度、国债收益率利差和股票市场融资率虽然在长期和短期预测中贡献较小,但是这些变量对经济发展的影响都是十分显著的,所以可以为经济增长提供有用的信号。本文研究创新有三点。第一,本文使用了更高频率的混频数据,将影响因素的频率提高到日度,能够高频及时地预测GDP。本文使用了日度、月度、季度和年度数据,将月度、季度和年度数据填充为日度数据,提高了预测的及时性。第二,前人虽也有使用机器学习模型预测中国经济,但是他们更注重机器学习模型的进一步改进,既没有对比线性回归模型,也没有对比其他机器学习模型。本文则是使用线性回归模型为基准模型,对比了弹性网、神经网络、支持向量机、随机森林、极端决策树和XGBOOST六种模型的预测准确性。第三,前人的研究中使用机器学习模型时只能给出整个模型对经济预测的准确性,而没有分析影响因素在对经济增长的影响程度和显著性。这样的原因是机器学习模型在可解释性和准确性之间进行权衡,预测准确性提高就意味着模型越复杂,可解释性就越低。本文使用Shapley回归解决了机器学习模型不可解释性的问题,在提高预测准确性的同时分析预测因子在预测中的作用。Shapley回归作为非线性模型统计推理的一般框架,特别是对于机器学习模型,其基本思想是在模型的Shapley分解所定义的转换输入空间内制定一个回归问题。Shapley回归提供了单个模型预测的可解释性,也为机器学习的不可解释性问题打开了参数统计的大门,为后续更多的计量经济学的技术运用到机器学习模型中提供了一个模板。