论文部分内容阅读
股市指数的预测一直是一项艰巨的任务。传统股票指数研究方法多停留在经验判断或简单的数据分析阶段,主要方法有基本面分析法、交易指标分析法等,这类分析方法或是对以往数据包含的信息使用效率比较低,或是对使用者的经验积累要求很高,一般的投资者很难直接使用该类方法,特别是新进入股市的投资者往往会被周围各种传言或伪专家误导,造成经济损失,因此摆脱经验判断是股市指数预测的一项重要议程。如今大数据技术发展迅速,很多学者将关注点移到了大数据挖掘领域,计量分析法、数据挖掘算法称为新的宠儿。该类算法种类繁多,其中模糊时间序列模型是用于股市预测较为高效的算法之一。很多学者试图通过构造模糊时间序列模型来预测股市未来的走势,本文通过对该模型的演变及改进方向等文献进行归纳,结合实际数据提出新的模型,同时在前人文献不足之处上提出了未来的研究方向。本文的创新主要有三点,一是提出了新的数据区间划分方法,能够更有效的利用历史数据包含的信息;二是,提出了新的计算数据隶属度的公式,以体现用于预测的以往数据的不同的重要性;三是对模型预测结果的修正,通过SVM分类算法修正模型预测的涨跌情形。本文先后选取1996年-2003年及2011年-2013年上证指数数据作为研究对象,使用本文提出模型进行指数预测,并与多种重要FTS模型、BP神经网络模型结果进行比较。本文主要贡献有:一是在FTS模型改进领域提出了新的区间划分方法。在引入信息熵的情况下使得区间划分有了理论基础,区间划分随意性带来的信息损失降到了最低。本文不是单纯使用信息熵划分区间,而是在划分之后依据股指历史数据特点做进一步的数据预处理,包括区间间隔过大的区间进一步划分,合并只包含单个数值的区间等。这些数据预处理措施能够使区间包含充分合理信息同时不必划分过多区间。区间的数量与质量得到一定改善;二是提出新的模糊集权重公式。在FTS模型改进方法中,加入权重是主要改进方向,但是学者在这方面的研究并不多,而且主要集中在对趋势或个数计数加权。本文指出用距离远近表示重要性的高低,提出可以依据数据重要性加权,新的权重公式较为充分利用了每一个历史数据包含的信息;三是应用SVM分类算法进行模型修正,提出组合FTS模型。简单的FTS模型局限性越来越大,导致单独对该模型的改进措施无法满足精度提升要求,因此引入其他模型辅助预测是提高预测精度的重要改进方法。