论文部分内容阅读
摘要:文章主要通过金融工程当中的量化方法,研究主要宏观经济指标对国内股票市场的影响。文章对主要宏观经济指标序列进行分析筛选,运用统计学中的LOGISTIC回归模型以及数据挖掘的决策树模型,以从2002年5月至2011年12月的月度数据作为样本区间,分别建立用于解释上证综合指数上涨/下跌的LOGISTIC回归模型和决策树模型。在最后,文章对两种模型的结果以及模型局限性进行分析,并且提出后续的研究方向。
关键词:股票市场 上证综合指数 数据挖掘 LOGISTIC回归 决策树
Abstract: This paper studies Macroeconomic Factors Impact On the domestic Stock Market with financial engineering, quantitative methods. After exploring the major macroeconomic indicators, applying LOGISTIC regression model and DECISION TREE model, this paper established models to explain the rose/ fell of SSE Composite Index, from May 2002 to Dec. 2011 as sample period. Finally, this article made an analysis of the results and limitations of these models, and proposed follow-up research.
Key words: Stock Market SSE Composite Index Data Mining LOGISTIC regression Decision Tree
一、引言
20世纪80年代以来的中国经济改革浪潮,推动了中国资本巿场的快速发展。从到今天,中国资本市场己经形成了多层次、多功能的结构体系。巿场作为最重要的组成部分,对国内资本市场的影响力与日俱增。至2011年末,国内上公司总市值己达到21.5万亿,比2000年底增长了约4.5倍,相当于国内2011年GDP的46%。2011全年国内股票市场总成交金额己经达到42.2万亿,比2000年增长4.7倍。如何能够更加准确的把握股票市场的走势,几乎是所有股票市场参与者共同关注的问题。通常来说,股票市场走势容易受到一些主要因素的影响,包括:
以GDP、工业增加值、采购经理人指数、货币量(M1、M2)等为代表的宏观经济数据。
国家财政、货币等宏观政策的重大转变。
容易受到全球金融及能源市场走势的影响。
此外股票市场还会受到自身一些特殊情况的影响,例如IPO进程、大小非解禁等情况。
以上只是对影响股票市场走势几大类因素的归总,实际的情况则更为复杂。首先,各种宏观经济数据和市场指标种类繁杂,宏观经济指标亦有提前、滞后之分;其次,各种指标的重要程度不同,受到市场的关注程度也不同,因而对股票市场的实际影响程度自然也各不相同。本文旨在通过量化和数据挖掘的手段,寻找一组经济指标序列,用来帮助理解股票市场短期的走势。
二、模型的建立
由于宏观经济指标分类众多,并且其中各种宏观经济指标序列与股市涨跌幅之间并非只是简单的线性关系或者可以通过时间序列模型进行解释;同时,各个宏观经济指标序列之间亦存在着比较复杂的因果关系,传统的多元线性回归分析模型在此问题上多少显得有些力不从心,本文将采用数据挖掘的简单决策树模型与统计模型中较为复杂的非线性模型来尝试进行建模。
(一)经济指标序列的选取
该模型旨在解释影响股票市场短中期走势,若选择的观测数据间隔时间过短,则随机干扰对价格的影响太大,且与宏观经济数据的发布时间不匹配。若选择的观测数据间隔时间太长,虽然能过滤掉不少的随机干扰,但会造成观测数据量大大变少,且会造成模型缺乏一定的时效性,与市场实践脱节过多。所以最终将观测数据的频率定位为月度数据,这样即做到了与主要宏观经济数据的发布频率一致,又能够兼顾到模型的时效性,方便后续进一步的研究。其次,考虑到虽然我国股票市场只有短短二十多年的发展时间,但几乎经历了发达国家近100多年的发展道路,不论从股票市场的规模、市场投资者的构成、以及监管部门对市场监管来看,近些年来国内股票市场的内在结构相较以前均己经发生了翻天覆地的变化,并且这种变化还在不断的发展当中,因此,在保证观测数据数量的前提下,尽量选择近期数据作为样本。最终本文选择了以2002年5月-2011年12月(共116組)作为样本数据区间,并且以上证综合指数的月度涨跌作为反映国内股票市场月度走向的目标数据序列。
另外考虑到各种宏观经济指标对市场的影响强弱,本文主要选取了如下的宏观经济指标序列(己经过初步挑选、处理):
(二)LOGISTIC回归模型
LOGISTIC模型回归分析,是离散选择法模型之一,属于多重变量分析范畴。主要是根据一组或几组解释变量,来预测离散的被解释变量发生某种情况的概率。最常用的是二值型LOGISTIC模型。即被解释变量的取值只包含两个类别。例如:好、坏 ;发生、不发生;常用y=1或y=0来表示,则用于表示解释变量,表示在给定的条件下y=1的概率,LOGISTIC回归模型的数学表达式为:
其中称为优势比(Odds),即事件的发生与不发生的概率之比。其中概率P可以通过下式求得:
在本文中,令上证指数的月度上涨为1,月度下跌为0,即为上证指数月度上涨与下跌的概率比。
通过分别绘制相应宏观经济指标序列与上证指数月度收益率的散点图,从中挑选出随着解释变量的趋向,上证指数涨跌有着显著明关系的序列,且符合经济学逻辑的宏观经济指标序列,并且再通过LOGISTIC模型进行的相关性检验。挑选出的结果如下:
对以上经济指标序列用LOGISTIC模型分别回归建模的结果如表3所示。
可见M2同比、上证月度日均成交金额/流动市值对股市的涨/跌存在正效应,即指标序列数值越大,上证指数越趋向于上涨;PPI同比、1年期固定国债收益率对股市存在负效应,也即指标序列数值越小,上证指数越趋向于下跌,且拟合得到的参数估计值在5%的置信度下都是比较显著的。从模型错误归类率来看,四个序列对上证指数的上涨/下跌均有一定的解释度,其中上证月度日均成交金额/流动市值与1年期固定国债收益率的解释效果要相对高于另外两个指标。
对上述四个指标序列进行Pearson相关性分析,发现M2同比,1年期固定国债收益率与PPI同比之间存在比较高的相关性(见表4),而上证月度日均成交金额/流动市值与其他三组序列相关性较小。即最终模型的解释变量,很可能会从M2,国债收益率,PPI当中选取一个变量,与日均成交额/流动市值共同组成。将指标序列分别进行两两、三三配对建模,以及四个序列变量同时建模。结果,采用三序列、四序列的模型均存在参数估计值不显著的问题。最终在经过效果比对后,最终选取1年期固定国债收益率与上证月度日均成交金额/流动市值两个指标序列进行建模,且由于常数项不显著,将常数项从模型中移除。通过SAS软件对LOGISTIC回归模型最终得到的拟合估计结果如表5:
即1年期固定国债收益率和上证月度日均成交金额/流动市值的参数估计值分别为-0.6930和1.2103,且参数估计值均非常显著,P值都小于0.0001。整体LOGISTIC回归模型对上证指数涨/跌的解释正确率达到75%(1-0.25)。
由以上的拟合结果,模型最终定型为:
数据代入上述模型进行计算时,当结果L<0时,即,此时模型解释为上证指数下跌;当结果L>0时,即,此时模型解释为上证指数上涨。
(三)决策树模型
在机器学习中,决策树是一个预测模型。代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点,对每次切分都要求所分成组之间的“差异”最大。
在这里,我们希望通过简单决策树模型来帮助我们寻找出一套用于解释股市涨/跌的逻辑决策。同样地,令0代表上证指数的下跌;1代表上证指数的上涨。
同样地,对原始数据指标序列绘制对上证收益率的散点图,寻找明显可以运用决策树算法进行分割,并且符合经济规律的序列。经过筛选,从所有序列当中选取了五个有比较明显地符合决策树算法的指标序列。
挑选出来的序列单独经过简单的分割后,在分割出的区域内均有非常显著的涨跌趋向。把挑选后的指标序列随机抽取分成Training和Validation两部分,通过Cross Validation的方式,运用SAS软件的决策树模型对经济指标序列进行整体建模,并经过修剪,最终得到的典型决策树模型见图1:
通过决策树模型的建模,最终留下了1年期固定国债收益率、PPI同比、以及上证月度日均成交金额/流动市值三组指标序列。
决策树模型的效果可以通过衡量Training和Validation的错误归类比例来衡量,图2所显示的错误归类比例表明,每增加一支叶片,模型的错误归类比例就明显的减少,当叶片数增加至4片时,错误归类比例己经比较低了,并且Training和Validation曲线的紧密度还是非常不错的。需要注意的是图1、图2只是代表决策树模型中一种随机抽样后的建模结果。
三、本文总结
通过对不同宏观经济指标序列的整理和挖掘,采用LOGISTIC回归模型和决策树模型对股市上涨/下跌的解释作用还是比较明显的。在样本区间内(2002年5月-2011年12月,共116组观测),上涨63次(54.31%),下跌53次(45.69%)。通过建立LOGISTIC回归模型后,在数据样本内解释度能够达到75%的正确率,通过决策树模型,采用数据挖掘的方式,样本内的解释度也能够达到平均75%左右的正确率。可以说建立的两个模型的效果还是非常不错的。
但是就模型本身来说还存在一些需要注意的地方:
用于建模的样本区观测数据量只有116组,对于数据挖掘所需要的海量数据来说是偏少。这一方面主要还是由于国家经济数据指标公布的时间长度还比较短,特别是一些重要的指标数据如PMI等,从05年才开始公布;另一方面,主要是由于国内股票市场迅速发展,内在结构发生了较大的变化,所以需要选择较近的时间区间。
兩个模型本身主要是偏重于相应宏观指标在一定区间范围内对股票市场的整体影响,而经济序列指标通常在一定区间内具有连续性,因而模型所得到的解释结果通常是具有连续性(即某个时间段内模型均解释为上证指数的上涨/下跌)。而实际上,股票市场通常呈现波浪式的走势,在牛市/或者熊市当中出现的调整走势在模型当中无法有效的进行刻画。同样的,对于股票市场趋势发生反转时,模型反应也较为迟缓。
在样本区间内,主要发生了08年以前全球经济的空前繁荣以及08年以后的金融危机,两种建立的模型,特别是决策树模型,所发掘出来的更多是这个时间段的特征,如果随后经济状况背景与建模样本区间的经济状况背景发生了较大的改变,那么模型的结果在未来的适用性就值得商榷了。
目前模型仍处于刚建立后的初步阶段,需要较长的时间对结果进行检验。另一方面,在上述的工作基础上,后续的研究工作仍有较大的开拓空间:下一步,将继续深入发掘各个宏观经济序列与股市涨/跌之间的提前/滞后关系,然后在解释模型的基础上进一步建立起用于预测股市上涨/下跌的预测模型。
参考文献:
[1]王济川,郭志刚. Logistic回归模型:方法与应用[M]. 北京:高等教育出版社,2001
[2]Paul D. Allison. Logistic Regression Using the SAS System: Theory and Application[M]. NC: SAS Institute Inc, 2001
[3]Barry de Ville. Decision Tree for Business Intelligence and Data Mining: Using SAS Enterprise Miner[M]. NC:SAS Institute Inc, 2006
关键词:股票市场 上证综合指数 数据挖掘 LOGISTIC回归 决策树
Abstract: This paper studies Macroeconomic Factors Impact On the domestic Stock Market with financial engineering, quantitative methods. After exploring the major macroeconomic indicators, applying LOGISTIC regression model and DECISION TREE model, this paper established models to explain the rose/ fell of SSE Composite Index, from May 2002 to Dec. 2011 as sample period. Finally, this article made an analysis of the results and limitations of these models, and proposed follow-up research.
Key words: Stock Market SSE Composite Index Data Mining LOGISTIC regression Decision Tree
一、引言
20世纪80年代以来的中国经济改革浪潮,推动了中国资本巿场的快速发展。从到今天,中国资本市场己经形成了多层次、多功能的结构体系。巿场作为最重要的组成部分,对国内资本市场的影响力与日俱增。至2011年末,国内上公司总市值己达到21.5万亿,比2000年底增长了约4.5倍,相当于国内2011年GDP的46%。2011全年国内股票市场总成交金额己经达到42.2万亿,比2000年增长4.7倍。如何能够更加准确的把握股票市场的走势,几乎是所有股票市场参与者共同关注的问题。通常来说,股票市场走势容易受到一些主要因素的影响,包括:
以GDP、工业增加值、采购经理人指数、货币量(M1、M2)等为代表的宏观经济数据。
国家财政、货币等宏观政策的重大转变。
容易受到全球金融及能源市场走势的影响。
此外股票市场还会受到自身一些特殊情况的影响,例如IPO进程、大小非解禁等情况。
以上只是对影响股票市场走势几大类因素的归总,实际的情况则更为复杂。首先,各种宏观经济数据和市场指标种类繁杂,宏观经济指标亦有提前、滞后之分;其次,各种指标的重要程度不同,受到市场的关注程度也不同,因而对股票市场的实际影响程度自然也各不相同。本文旨在通过量化和数据挖掘的手段,寻找一组经济指标序列,用来帮助理解股票市场短期的走势。
二、模型的建立
由于宏观经济指标分类众多,并且其中各种宏观经济指标序列与股市涨跌幅之间并非只是简单的线性关系或者可以通过时间序列模型进行解释;同时,各个宏观经济指标序列之间亦存在着比较复杂的因果关系,传统的多元线性回归分析模型在此问题上多少显得有些力不从心,本文将采用数据挖掘的简单决策树模型与统计模型中较为复杂的非线性模型来尝试进行建模。
(一)经济指标序列的选取
该模型旨在解释影响股票市场短中期走势,若选择的观测数据间隔时间过短,则随机干扰对价格的影响太大,且与宏观经济数据的发布时间不匹配。若选择的观测数据间隔时间太长,虽然能过滤掉不少的随机干扰,但会造成观测数据量大大变少,且会造成模型缺乏一定的时效性,与市场实践脱节过多。所以最终将观测数据的频率定位为月度数据,这样即做到了与主要宏观经济数据的发布频率一致,又能够兼顾到模型的时效性,方便后续进一步的研究。其次,考虑到虽然我国股票市场只有短短二十多年的发展时间,但几乎经历了发达国家近100多年的发展道路,不论从股票市场的规模、市场投资者的构成、以及监管部门对市场监管来看,近些年来国内股票市场的内在结构相较以前均己经发生了翻天覆地的变化,并且这种变化还在不断的发展当中,因此,在保证观测数据数量的前提下,尽量选择近期数据作为样本。最终本文选择了以2002年5月-2011年12月(共116組)作为样本数据区间,并且以上证综合指数的月度涨跌作为反映国内股票市场月度走向的目标数据序列。
另外考虑到各种宏观经济指标对市场的影响强弱,本文主要选取了如下的宏观经济指标序列(己经过初步挑选、处理):
(二)LOGISTIC回归模型
LOGISTIC模型回归分析,是离散选择法模型之一,属于多重变量分析范畴。主要是根据一组或几组解释变量,来预测离散的被解释变量发生某种情况的概率。最常用的是二值型LOGISTIC模型。即被解释变量的取值只包含两个类别。例如:好、坏 ;发生、不发生;常用y=1或y=0来表示,则用于表示解释变量,表示在给定的条件下y=1的概率,LOGISTIC回归模型的数学表达式为:
其中称为优势比(Odds),即事件的发生与不发生的概率之比。其中概率P可以通过下式求得:
在本文中,令上证指数的月度上涨为1,月度下跌为0,即为上证指数月度上涨与下跌的概率比。
通过分别绘制相应宏观经济指标序列与上证指数月度收益率的散点图,从中挑选出随着解释变量的趋向,上证指数涨跌有着显著明关系的序列,且符合经济学逻辑的宏观经济指标序列,并且再通过LOGISTIC模型进行的相关性检验。挑选出的结果如下:
对以上经济指标序列用LOGISTIC模型分别回归建模的结果如表3所示。
可见M2同比、上证月度日均成交金额/流动市值对股市的涨/跌存在正效应,即指标序列数值越大,上证指数越趋向于上涨;PPI同比、1年期固定国债收益率对股市存在负效应,也即指标序列数值越小,上证指数越趋向于下跌,且拟合得到的参数估计值在5%的置信度下都是比较显著的。从模型错误归类率来看,四个序列对上证指数的上涨/下跌均有一定的解释度,其中上证月度日均成交金额/流动市值与1年期固定国债收益率的解释效果要相对高于另外两个指标。
对上述四个指标序列进行Pearson相关性分析,发现M2同比,1年期固定国债收益率与PPI同比之间存在比较高的相关性(见表4),而上证月度日均成交金额/流动市值与其他三组序列相关性较小。即最终模型的解释变量,很可能会从M2,国债收益率,PPI当中选取一个变量,与日均成交额/流动市值共同组成。将指标序列分别进行两两、三三配对建模,以及四个序列变量同时建模。结果,采用三序列、四序列的模型均存在参数估计值不显著的问题。最终在经过效果比对后,最终选取1年期固定国债收益率与上证月度日均成交金额/流动市值两个指标序列进行建模,且由于常数项不显著,将常数项从模型中移除。通过SAS软件对LOGISTIC回归模型最终得到的拟合估计结果如表5:
即1年期固定国债收益率和上证月度日均成交金额/流动市值的参数估计值分别为-0.6930和1.2103,且参数估计值均非常显著,P值都小于0.0001。整体LOGISTIC回归模型对上证指数涨/跌的解释正确率达到75%(1-0.25)。
由以上的拟合结果,模型最终定型为:
数据代入上述模型进行计算时,当结果L<0时,即,此时模型解释为上证指数下跌;当结果L>0时,即,此时模型解释为上证指数上涨。
(三)决策树模型
在机器学习中,决策树是一个预测模型。代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点,对每次切分都要求所分成组之间的“差异”最大。
在这里,我们希望通过简单决策树模型来帮助我们寻找出一套用于解释股市涨/跌的逻辑决策。同样地,令0代表上证指数的下跌;1代表上证指数的上涨。
同样地,对原始数据指标序列绘制对上证收益率的散点图,寻找明显可以运用决策树算法进行分割,并且符合经济规律的序列。经过筛选,从所有序列当中选取了五个有比较明显地符合决策树算法的指标序列。
挑选出来的序列单独经过简单的分割后,在分割出的区域内均有非常显著的涨跌趋向。把挑选后的指标序列随机抽取分成Training和Validation两部分,通过Cross Validation的方式,运用SAS软件的决策树模型对经济指标序列进行整体建模,并经过修剪,最终得到的典型决策树模型见图1:
通过决策树模型的建模,最终留下了1年期固定国债收益率、PPI同比、以及上证月度日均成交金额/流动市值三组指标序列。
决策树模型的效果可以通过衡量Training和Validation的错误归类比例来衡量,图2所显示的错误归类比例表明,每增加一支叶片,模型的错误归类比例就明显的减少,当叶片数增加至4片时,错误归类比例己经比较低了,并且Training和Validation曲线的紧密度还是非常不错的。需要注意的是图1、图2只是代表决策树模型中一种随机抽样后的建模结果。
三、本文总结
通过对不同宏观经济指标序列的整理和挖掘,采用LOGISTIC回归模型和决策树模型对股市上涨/下跌的解释作用还是比较明显的。在样本区间内(2002年5月-2011年12月,共116组观测),上涨63次(54.31%),下跌53次(45.69%)。通过建立LOGISTIC回归模型后,在数据样本内解释度能够达到75%的正确率,通过决策树模型,采用数据挖掘的方式,样本内的解释度也能够达到平均75%左右的正确率。可以说建立的两个模型的效果还是非常不错的。
但是就模型本身来说还存在一些需要注意的地方:
用于建模的样本区观测数据量只有116组,对于数据挖掘所需要的海量数据来说是偏少。这一方面主要还是由于国家经济数据指标公布的时间长度还比较短,特别是一些重要的指标数据如PMI等,从05年才开始公布;另一方面,主要是由于国内股票市场迅速发展,内在结构发生了较大的变化,所以需要选择较近的时间区间。
兩个模型本身主要是偏重于相应宏观指标在一定区间范围内对股票市场的整体影响,而经济序列指标通常在一定区间内具有连续性,因而模型所得到的解释结果通常是具有连续性(即某个时间段内模型均解释为上证指数的上涨/下跌)。而实际上,股票市场通常呈现波浪式的走势,在牛市/或者熊市当中出现的调整走势在模型当中无法有效的进行刻画。同样的,对于股票市场趋势发生反转时,模型反应也较为迟缓。
在样本区间内,主要发生了08年以前全球经济的空前繁荣以及08年以后的金融危机,两种建立的模型,特别是决策树模型,所发掘出来的更多是这个时间段的特征,如果随后经济状况背景与建模样本区间的经济状况背景发生了较大的改变,那么模型的结果在未来的适用性就值得商榷了。
目前模型仍处于刚建立后的初步阶段,需要较长的时间对结果进行检验。另一方面,在上述的工作基础上,后续的研究工作仍有较大的开拓空间:下一步,将继续深入发掘各个宏观经济序列与股市涨/跌之间的提前/滞后关系,然后在解释模型的基础上进一步建立起用于预测股市上涨/下跌的预测模型。
参考文献:
[1]王济川,郭志刚. Logistic回归模型:方法与应用[M]. 北京:高等教育出版社,2001
[2]Paul D. Allison. Logistic Regression Using the SAS System: Theory and Application[M]. NC: SAS Institute Inc, 2001
[3]Barry de Ville. Decision Tree for Business Intelligence and Data Mining: Using SAS Enterprise Miner[M]. NC:SAS Institute Inc, 2006