论文部分内容阅读
股票价格时间序列是股票市场的综合外在表现形式,正在不断地引起人们的注意,进入人们的生活。对于股票价格时间序列预测研究的必要性已经成为实务界和学术界的普遍共识。然而,由于股票价格时间序列本身的复杂性、多样性和善变性,影响其变化的因素众多,有些因素是可以度量的,而有些因素却难以量化,很难科学的计算和评价,因而研究难度较大。当前,隐马尔可夫模型(HMM)的广泛应用以及计算智能(CI)技术的不断发展,为股票价格时间序列预测研究开阔了新的思路,提供了新的理论和技术支持。本文以隐马尔可夫模型(HMM)为基础,结合几种计算智能(CI)方法:人工神经网络(ANN),模糊逻辑(FL),和进化算法(EA),开展针对股票价格时间序列预测问题的系统研究,建立了比较完整的混合算法预测模型,以期更进一步地丰富和完善股票价格时间序列预测研究的成果。本文以逐层递进的结构,逐步完善所提出的预测模型。首先,提出了一种基于HMM的无监督聚类方法。该聚类方法是运用HMM在数据集中识别相似的数据模式,对于给定的数据集,HMM被用来确定分类的数目,并计算每个数据模式的对数似然值,之后根据对数似然值的大小将其对应的数据模式分进不同的类里。为了检验该方法的数据识别聚类能力,将该方法与其它三种聚类方法进行了实证比较研究。其次,根据之前提出的基于HMM的无监督聚类方法,设计了针对股票价格时间序列的基础预测模型。该基础预测模型,是从过去的数据集中找出与当前股票价格行为相匹配的模式,然后用适当的邻近价格元素插入这两个数据集中,并对下个时间单元的股票价格进行预测。以上海证券交易所的六只股票为实证研究对象,采用该基础预测模型进行了实证预测研究,并与其它预测方法进行了比较。之后,运用ANN和遗传算法(GA)对该基础预测模型进行了改进。其中,ANN用来转换HMM的输入观察序列,GA用来优化HMM的初始参数,改进后的预测模型解决了基础预测模型的局限性,并且提高了预测的精确度。为了证实改进后的预测模型比基础预测模型更优秀,以相同的上海证券交易所的六只股票作为实证研究对象,进行了实证预测研究,并以平均绝对百分比误差(MAPE)作为衡量标准,与其它预测方法再次进行了比较。再次,为了处理股票价格时间序列数据的非平稳性,将模糊逻辑理论引入到之前提出的改进后的基础预测模型当中,构建了一个有效的数据驱动HMM-Fuzzy混合预测模型,该混合预测模型能够在提高预测精确度的同时使模糊规则的数目最小。该混合预测模型的一个关键优势是在运用模型之前没必要去分析训练数据集,而这一点对于其它一些现存的数据驱动模型是必要的。此外,该数据驱动模糊模型并没有受到使用者所定义的参数的限制。将HMM-Fuzzy模型应用在两组时间序列数据中,进行实证研究。一组是具有非线性和强非平稳性特征的Mackey-Glass时间序列数据,另一组是具有非线性和弱非平稳性特征的上海证券交易所的六只股票的股票价格时间序列数据。对于这两组数据,HMM-Fuzzy模型都能产生较准确的预测结果。当预测对象是具有非线性和弱非平稳性特征的时间序列数据时,HMM-Fuzzy模型可以达到很好的预测性能。然而,当预测对象是具有非线性和强非平稳性特征的时间序列数据时,尽管有很好的预测性能,但是由于生成的模糊规则数目非常大导致模型变得十分复杂。最后,为了解决对于具有非线性和强非平稳性时间序列数据进行预测时,产生大量模糊规则的问题,引入进化算法(EA),对HMM-Fuzzy模型进行了改进,提出了一种HMM-Fuzzy-EA混合预测模型。该混合预测模型通过满足期望的均方误差(MSE)来使模糊规则的数目尽可能的小。如果选择了对于数据集不合适的MSE,可能会导致生成大量的模糊规则,还有可能发生过度拟合。为了克服这个问题,采用多目标EA,在最优模糊规则数目和预测准确性之间,找到折中解的范围。通过实证研究发现,选择合适的MSE值,不仅可以提高预测的准确性并且还可以大幅度降低所生成的模糊规则数目。本文对于结合隐马尔可夫模型和计算智能方法的股票价格时间序列预测的研究,有利于跨学科多渠道预测建模方法的发展,丰富了混合预测模型的理论与实证研究结果,更好地为股票价格时间序列预测研究提供了科学指引和有效帮助。