论文部分内容阅读
在金融市场中,波动率作为衡量金融资产价格波动剧烈程度的指标,对于刻画金融市场中的风险有着重要指导作用。相比以日、月为单位的低频数据,以秒、分钟、小时为采集频率的日内高频金融数据,不再服从正态分布假设,整体上呈尖峰厚尾性质。较高的采样频率,使得高频金融数据能够对市场微观结构进行更准确的预测,因此,大量学者展开了对高频金融数据波动率的探索。在计量经济领域,学者们尝试采用参数估计方法,描述高频金融数据的趋势分布,但此类模型过于依赖数学公式,只能捕获高频金融数据内部的线性特征,捕获其非线性特征的能力稍有欠缺。另一方面,高频金融数据从形式上属于时间序列,因此也有学者尝试将深度学习领域中的时间序列预测方法,应用于高频金融数据波动率的预测,此类方法基于数据自身特点构建神经网络,能够对波动率序列中的非线性特征进行准确描述。将计量模型与深度学习中的时间预测模型结合,能够同时对波动率序列的线性与非线性特征进行刻画。但此类混合模型仅能关注到高频金融数据自身的特征,而无法涵盖数据之外的市场信息对波动率变化的影响。与此同时,行为金融学中提出,投资者的非理性情绪将作用于其投资决策,进而影响金融资产价格的波动。因此,结合计量经济模型的理论,构建深度学习混合模型,并将投资者情绪考虑进去,对于提高波动率预测精度有着重要的理论和实践意义。在此背景下,本文提出一种投资者情绪感知的深度学习混合模型,对波动率进行预测。首先,使用计量经济模型对高频金融价格数据进行初步预测,得到日度波动率序列,作为混合模型的输入。计量模型的选择,考虑在波动率预测任务表现良好的异质自回归已实现波动率模型(Heterogeneous Autoregressive model with Realized Volatility,HAR-RV),以及时变参数异质自回归已实现波动率模型(Heterogeneous Autoregressive model with Realized Volatility Quarticity,HARQ),对高频金融数据做初步的波动率预测。与此同时,使用Transformer的双向编码器表示模型(Bidirectional Enoceder Representations from Transformers,BERT),对同一研究对象在相同样本区间内的金融文本信息进行情感极性分类,进而构建出本文称之为(BERT-Investor)BI的日度投资者情绪指标序列,作为混合模型的另一个输入。最后,选择Transformer深度学习方法,对含有投资者情绪指标的复合波动率序列,做进一步预测,得到最终的波动率预测结果。本文选取5分钟抽样频率的沪深300指数数据作为研究对象,为对模型的有效性进行验证,选取上证指数作为验证对象。在对模型的预测效果进行比较时,选取均方误差(Mean Squared Error,MSE)、经异方差调整的均方误差(Heteroscedasticity adjusted Mean Square Error,HMSE)、均方绝对误差(Mean Absolute Error,MAE)、经异方差调整的均方绝对误差(Heteroscedasticity adjusted Mean Absolute Error,HMAE)作为描述预测值与真实值差距的损失函数,对本文提出的HAR-RV-BI-Transformer、HARQ-BI-Transformer模型在样本内拟合和样本外预测的效果进行评估。为说明本文提出的HAR-RV-BI-Transformer、HARQ-BI-Transformer模型的有效性,采用未考虑测度误差影响的HAR-RV、HARQ模型等模型作为单计量维度的基准模型;选取直接将已实现波动率值(Realized Volatility,RV)输入到Transformer中RV-Transformer模型作为深度学习维度的基准模型;以及HAR-RV-Transformer、HARQ-Transformer等模型作为不考虑投资者情绪影响的深度学习混合的基准模型,共六个基准模型,与本文提出的两个投资者情绪感知的深度学习混合模型,进行两个平行实验的样本内拟合和样本外预测效果的对比分析。可以发现,本文提出的HAR-RV-BI-Transformer、HARQ-BI-Transformer模型,在与上述不同维度的基准模型对比时,损失函数值最小,并且对波动率峰值的预测值更接近真实值;由于考虑了实时投资者情绪,相比其他基准模型在对大幅剧烈波动描述时的明显滞后性,本文提出的HAR-RV-BI-Transformer、HARQ-BI-Transformer模型都可以对剧烈波动进行实时的描述;而在对本文提出的两个混合模型进行纵向比较时发现,考虑了测量误差影响的HARQ-BI-Transformer效果好于HAR-RV-BI-Transformer模型,对波动率的预测效果的改善较为明显。