论文部分内容阅读
改革开放以来中国经济稳步增长为中国金融市场的进一步发展提供了保障,而股票市场的发展与金融市场紧密相关,这就意味着股票波动与金融市场的繁荣以及国民经济的发展密不可分。股票在市场机制中发挥着提高资源配置效率、拓宽融资渠道等重要作用,因此对股票的研究具有现实意义。多年来国内外学者们从未停止对股票的研究,研究方法与技术也在不断创新,但是股票市场的不确定性、波动性、复杂性等特点使得股票研究富有挑战性,而机器学习和深度学习的出现为学者们提供了更多的技术支持。其中,长短期记忆神经网络(Long Short Term Memory,LSTM)的提出为研究时间序列提供了崭新的思路,它作为改良版的循环神经网络,能够有效地提取序列中的时间特性,从而能够更好地拟合时间序列数据。LSTM预测性能主要取决于股票数据特征的选择、损失函数的选择以及模型参数的设定,故本文基于LSTM模型并结合深度学习相关理论,选用中国银行2007年1月4日至2019年12月31日的股票日度数据,从特征选择、损失函数、优化算法三个角度出发进行建模预测。首先,针对上市公司的相关披露信息、股票历史交易数据等都会影响股票的价格波动,但并非所有信息都是有效特征的问题,本文采用了基于Light GBM(Light Gradient Boosting Machine)的嵌入式特征选择算法。该算法克服了Light GBM模型在选择特征时存在主观性的缺点,通过结合嵌入式特征选择算法,在训练模型的同时巧妙地进行特征选择,最终使得模型不易产生过拟合的情况,同时运算速度上也能提升得相对更快,重要的是大多数情况下都能找到最优的特征子集。利用该算法,删除无效或冗余特征,模型的特征维度从40缩减为5,维度缩减率达87.5%,在充分利用数据信息的同时降低特征维度,进而简化计算,并且在后期建模过程中呈现出良好的表现。所以基于Light GBM的嵌入式特征选择算法,可以提升模型性能、有效降低特征维度,还可以缩短训练时间和提升泛化性能。其次,针对LSTM模型的损失函数,本文在均方误差(Mean Square Error,MSE)的基础上考虑股票涨跌情况来改进,称为涨跌均方误差(Mean Square Error of Highs and Lows,HLMSE)。该损失函数突破常规思路,除考虑真实值与预测值之间的距离外,还考虑到数值波动与预测误差之间的关系,例如股票价格真实涨跌与预测价格涨跌之间对于预测误差的影响,若预测涨跌与真实涨跌一致则减小惩罚,反之增大惩罚。当优化算法是Adam(Adaptive Moment Estimation)时,使用HLMSE损失函数的模型比使用MSE的模型拟合效果更优,MAPE和RMSE分别减小了42.1%和27.1%,R~2提升了4.6%。最后,针对LSTM模型参数训练的优化算法,本文基于Adam算法提出了Nonlinear Acceleration of Adam算法(简称Adam NA),改善了Adam算法在某些情况下会出现无法收敛的情况,也克服了随迭代次数增加历史梯度信息的利用率会逐渐降低的缺点。通过对Adam算法的输出进行非线性加权来改进,可以更好地获取历史信息并提升模型的预测性能。当损失函数是MSE时,使用Adam NA算法的模型比使用Adam的模型拟合效果更优,MAPE和RMSE分别减小了32.0%和23.5%,R~2提升了4.1%。通过对比模型的预测结果,发现使用Adam NA算法和HLMSE损失函数的模型拟合效果最优,MAPE为0.8003、RMSE为0.0457、R~2为0.9633。综上可知,特征选择能够充分降低特征维度,并选出最优的特征子集,为后期建模提供良好的数据基础;损失函数与优化算法的改进可以有效改善模型的预测效果。此外,本文为验证提出的模型是否具有泛化性能,在原始中国银行股票的基础上又加入了中国建设银行股票数据,通过验证得出:模型预测结果较好,具有良好的泛化性能。所以,经过特征选择、损失函数与优化算法改进后的LSTM模型对股票价格预测研究具有一定的实用价值,这也为今后算法与模型的深入优化改进提供了参考。