论文部分内容阅读
金融市场是一个庞大的、具有复杂运动模式的系统,受到来自各方面的多重因素的影响。时间序列作为金融市场中最为主要的,数量最多的数据形式,是金融市场复杂内在的综合外在表现形式。通过对金融时间序列的分析及预测,可以发现市场潜在的规律及信息特征,为金融活动及决策提供重要依据,具有非常重要的现实意义。伴随着数据库、平行技术、人工智能等技术的融合发展,出现了一项由交叉学科产生的新兴技术-数据挖掘技术。它能够从大量的历史数据中通过数据集成、规约、清理、变换、挖掘、模式评估和知识表示来提取其中隐含的且有用的知识及规律,为我们分析海量的大规模的金融时间序列提供有效的理论与技术支持。因此,本文以金融时间序列预测的信息融合与计算智能模型为研究课题,采用数据挖掘技术,重点研究了金融时间序列预测的特征提取过程、基础预测模型以及信息融合预测等,创新地构建了一类金融信息融合与计算智能模型,面向金融市场价格时间序列的每日走势预测。论文主要研究内容及成果可分为以下几个部分:首先,本文将特征提取过程的构建作为金融时间序列预测计算智能模型建模的关键步骤,从金融时间序列的高噪声、混沌、非线性和非平稳性特征出发,充分考虑金融时间序列分析与预测的实时性需求,将基于滑动窗口技术的金融时间序列专门的经验模态分解(FtsEMD)和主成分分析(PCA)相结合,构建了一个适用于金融时间序列的复杂的非线性特征提取过程。EMD是一种适用于处理非线性、非平稳时间序列的方法,而PCA是一种能够最大限度保留原始数据信息含量的线性降维方法,二者的结合从整体上就相当于一个非线性的PCA,因此,由FtsEMD和PCA构成的非线性金融时间序列特征提取过程更具有特征提取的适应性、全面性和正交性。其次,本文将基础预测模型的优化改进作为金融时间序列预测计算智能模型建模的基本任务,构建了一种基于自适应仿射传播(adaptive affinity propagation,AAP)聚类的嵌套式k-最邻近元(nested k-nearest neighbor,NKNN)回归预测方法。该方法首先采用AAP对特征集进行聚类,再将输出的最优聚类结果输入NKNN进行回归预测。其中NKNN是本文针对KNN算法本身的两大缺陷:计算量过大和受不均衡样本影响而提出的嵌套式改进算法。NKNN算法由NKNN0、NKNN1和NKNN2三个函数组成,包含两层计算:第一层是在类中心集(聚类产生的最优方案中,各个类中心的集合)中进行计算,并找到与预测点前一时刻的点X(t)最相似的类中心及所在类;第二层是在第一层找到的类中进行计算,并找到与X(t)最相似的k个最邻近元进行回归预测。这样的分层计算不仅可以提高聚类质量,还能够减少计算量,提高运算速度,从而能够更有效地对金融时间序列进行回归分析和预测。再次,本文在整个金融时间序列预测计算智能模型的建模过程中,分步骤地对特征提取过程和基础预测模型部分进行了优化改进,并构建了一系列包括PK(PCA-KNN)模型、FEPK(FtsEMD-PCA-KNN)模型、PANK(PCA-AAP-NKNN)模型和EPAK(FtsEMD-PCA-AAP-NKNN)模型的金融时间序列预测计算智能模型。其中最终构建的EPAK模型是计算智能的、而且具有创新性的整体结构,同时也具有特征提取的适应性、全面性和正交性,以AAP聚类与嵌套式的NKNN集成的回归预测作为基础预测模型比简单的KNN更合理,分类效果更好、运算速度更快,因此模型具有更优的预测性能。然后,本文基于金融市场信息融合的思想,将EPAK模型作为内核模型构造了一个股指预测的多变量信息融合预测模型,即用EPAK模型来单独预测各个行业指数,然后将行业指数预测进行合成并生成股市大盘指数预测。这种多变量信息融合预测对于我国大盘指数的分析与预测来说,也是具有理论价值和创新性的。最后,为了验证所提出的金融时间序列预测的信息融合与计算智能模型的有效性,本文在沪深300指数和单只股(用友网络)10年的真实历史数据上对所有模型进行了实证分析与比较。结果表示:1)PK模型的概率可预测精度高于KNN模型;2)FEPK和PANK模型的预测精度均高于PK模型,因为FEPK在PK的基础上改进了特征提取过程,PANK在PK的基础上改进了基础预测模型部分;3)FEPK模型的预测精度提升率是高于PANK模型的,这表明特征提取过程的改进比基础预测模型部分的改进更能提高模型的预测精度;4)EPAK模型集成了FtsEMD+PCA的非线性特征提取过程和基于AAP聚类的NKNN回归预测,表现出了最优的预测效果;5)行业股指预测的信息融合预测模型在预测沪深300指数上的效果是优于EPAK模型的,证明了信息融合预测大盘指数的有效性。