论文部分内容阅读
互联网时代的信息互通,人们可以在浏览器上搜索各类消息,而浏览的痕迹也会被“大数据”记录下来,比如在百度上搜索“股票”二字,当日的百度指数就会记录一次搜索量。投资者的心理预期也恰会表现在浏览器搜索行为上,即行为金融学,因此用百度指数的搜索量来间接反映投资者对股市的预期也是合理的。大数据时代机器学习、深度学习等算法热闹非凡,以往的股市量化分析大多基于ARMIA时间序列模型,之后的研究增加了技术分析模型比如神经网络,关于使用长短时记忆网络LSTM用于股票价格走势分析的研究也是近几年出现,长短时记忆网络RNN是建立在循环神经网络上的一种新型深度学习的时间序列模型,它具有高度的自学能力与模拟能力,具有记忆可持续性的特点,且能预测未来的任意步长,比较适合做金融时间序列的预测。本文以A股市场中白酒行业的洋河股份和贵州茅台开盘价预测作为研究。首先,综述行为经济学与投资者关注度的研究,对股市与关键词热搜的过往研究进行了总结,并发现百度指数可以作为关键词热搜的变量。然后,对神经网络模型进行描述,并对RNN循环神经网络和长短时记忆网络模型LSTM进行了对比,发现长短时记忆网络模型LSTM预测股价的误差值比循环神经网络模型RNN要小,因此选择长短时记忆网络模型预测金融时间序列更合适。因此,本文构建了基于长短时记忆网络进行股市的开盘价预测模型,并在影响因素上加上了股票的百度指数,具体的研究内容如下:第一,在变量的选取上,以t-1日的开盘价、收盘价、最高价、最低价、成交量、涨跌幅、振幅和百度指数作为输入变量,即影响因素,要预测的变量是t日的开盘价。在个股的选择上,选取了白酒行业中较有代表性的洋河股份和贵州茅台作为研究对象,并建立股票开盘价的预测模型。第二,为了比较出长短时记忆网络模型在预测开盘价时效果是否优于循环神经网络模型,我们对洋河股份(贵州茅台)的开盘价预测分别建立了长短时记忆网络模型和循环神经网络模型,并以预测的误差值衡量预测效果。同时,为了比较洋河股份(贵州茅台)的百度指数是否会对开盘价预测有影响,把长短时记忆网络模型的输入变量划分为有无百度指数,对循环神经网络模型也做同样处理。至此洋河股份与贵州茅台的股价预测模型分别有4个。第三,以2015年至2018年的时间跨度作为研究,并以2015年至2017年数据作为训练集,2018年数据作为测试。本文发现:1.在开盘价的预测模型选择上,LSTM模型比RNN模型预测效果更好。在使用t-1日的历史数据来预测t日的开盘价时,使用长短时记忆网络模型的误差值RMSE、MSE与MAE都要比循环神经网络预测时的误差值要小,印证了LSTM模型的效果要优于RNN模型。百度指数搜索量能够进行股价预测;2.无论是长短时记忆网络还是循环神经网络模型,当输入变量中含有百度指数时,在开盘价的预测上误差值要低于没有百度指数的预测模型,这反映出了百度指数作为人们对个股关注度的变量,其在预测股价上是具有一定的现实意义。所以,基于长短时记忆网络的股市量化分析具有如下的意义:首先是理论意义:长短时记忆网络模型LSTM在预测白酒行业股价上的误差小,对股市的研究精确性具有一定的价值;同时,我们把百度指数作为模型的输入变量时,发现预测效果更好,可以把百度指数作为一个有效的输入变量。最后,在实践上的意义,通过洋河股份和贵州茅台的实例,我们希望能为白酒行业的股市投资提供一些参考。