论文部分内容阅读
对于高频时间序列问题的研究一直是数据科学家研究的热点,伴随着机器学习算法的不断发展,为其研究找到了新的突破口,在众多类型的高频时间序列中,高频金融时间序列数据的预测更是预测难度最大的时间序列之一。以神经网络为代表的深度学习虽然可以达到很高的精度,但其要求数据量大,运算速度慢,对计算机硬件要求高,容易陷入局部极值等一系列内在缺陷使得其无法完全适应高频金融时间序列数据这类样本数量有限且存在大量噪声的数据类型。单一的机器学习模型难以胜任高频金融时间序列的研究,而国内外的研究重点主要集中在单个模型的改进和参数优化上面,显然,对于高频金融时间序列的研究还有待进一步加强和充实。针对高频金融时间序列的非线性、非平稳、低信噪比等固有特点,为提高高频金融时间序列数据的预测精度,本文在改进进化算法参数寻优的基础上,分别针对高频金融时间序列数据非平稳和低信噪比的特点以及单步预测和多步滚动预测模式的不同,构建了基于K均值聚类的支持向量回归模型用于单步预测,以及基于小波降噪和K均值聚类的支持向量回归模型用于多步滚动预测。实证结果表明,两种模型在单步与多步滚动预测性能上较支持向量回归模型均具有明显地提升。第一部分,阐述了国内外对于高频时间序列的研究现状。从传统的数理统计模型到机器学习,从神经网络到支持向量机的转变,对比了支持向量机和神经网络的优劣,并重点介绍了从支持向量机到支持向量回归的推导过程。第二部分,针对高频金融时间序列非线性的特点,选用支持向量回归模型进行预测。介绍了模型参数对模型精度的影响,并在进化算法的基础上做出了改进,利用改进进化算法进行参数寻优后的模型对高频金融时间序列数据进行预测。实证结果表明,基于进化算法的支持向量回归模型比基于传统参数寻优算法的支持向量回归模型具有更高的预测精度,其收敛速度更快,且在一定程度上可以扩大初始值的选择范围,对于无先验经验的参数寻优更加高效、友好。第三部分,针对高频金融时间序列中支持向量回归模型无法克服的数据非平稳问题,通过在改进进化算法参数寻优的基础上构建基于K均值聚类的支持向量回归模型来解决。一方面利用改进进化算法为模型寻得的最优参数提高模型的预测精度;另一方面是利用了无监督学习算法对数据进行聚类,在理论上能够将时间序列的异常波动和正常波动区分开来,使分类后的数据趋于平稳,从而提升模型的预测精度。实证结果表明,在同样以改进进化算法进行参数寻优的条件下,基于K均值聚类的支持向量回归模型可以在单步预测时提供比传统支持向量回归模型更好的预测精度。第四部分,针对高频金融时间序列数据低信噪比的特点以及滚动预测模式的特点,在基于改进进化算法和K均值聚类的支持向量回归模型的基础上加入了小波降噪算法。该模型在降低了预测难度的同时也不失实际意义,并出于实际应用的考虑,进行多步滚动预测,通过滑动时间窗口检验模型性能。实证结果表明,在同样以改进进化算法进行参数寻优的条件下,基于小波降噪和K均值聚类的支持向量回归模型在统计学意义上表现出比基于小波降噪的支持向量回归模型更好的预测精度和稳定性。最后,就前文的所述进行总结,提出本文的不足之处,就未来可能的研究方向进行了分析。