论文部分内容阅读
【摘要】由于股票开盘价、最高价、最低价与收盘价存在多重共线性的问题,所以人们很少利用前三者的数据从数理的角度对收盘价进行回归分析。但是引用岭回归的分析方法,解决多重共线性的问题后,可以对股票价格的变动做出回归分析。这对于分析股票价格及进行短期预测有重要意义。
【关键词】岭回归 多重共线性 膨胀系数
一、背景
在计算股票收益率时,人们往往运用收盘价计算股票的收益率,而忽略当日股价变化情况。如果在每日闭市之前,能观察出今日的开盘价、最高价、最低价,就可准确预测出今日的收盘价。刘广丽(2007)利用岭回归的方法,对我国上海股市进行研究,建立了多元线性回归模型,并进行预测。本文通过编写MATLAB程序,用2011年242个交易日的数据,对“中国银行”股票价格进行岭回归分析。
二、模型建立
首先,建立回归方程。Y(i,1)=b(1,1)+b(2,1)*x(i,1)+b(3,1)*x(i,2)+ b(4,1)*x(i,3) ,其中Y(i,1)代表日收盘价,x(i,1)代表日最高价,x(i,2)代表日最低价,x(i,3)代表日最高价。经过回归得到线性方程Y(i,1)=0.0023-0.5253* x(i,1)+ 0.7818* x(i,2)+ 0.7433* x(i,3)。回归得到的R方为0.9969,F值为25349。因此,可以初步判断上述回归方程成立。但由于自变量间可能存在严重共线性,需要对其共线性进行分析。
其次,对自变量进行标准化处理。令z(i,j)=(x(I,j)-)/,为自变量的样本均值。得到的z矩阵,为标准化的自变量。对z进行线性回归Y(i,1)=bb(1,1)+ bb(2,1)* z(i,1)+bb(3,1)*z(i,2)+bb(4,1)*z(i,3),得到回归方程为Y(i,1)=3.7256-2.9928* z(i,1)+ 4.506* z(i,2)+ 4.1702*z(i,3)。最后,观察方差膨胀系数。由于方差的膨胀系数VIF为inv(z’z)主对角线上的数,可观察到VIF1=237.8; VIF2=162.17; VIF3=153.03,本模型存在严重的多重共线性。
三、岭回归分析
岭回归法是A.E.Horel在1962年提出的一种能诊断和处理多重共线性的方法。在多重共线性非常严重的情况下,两个共线变量的系数之间的二维联合分布是山岭状曲面,曲面上的每个点均对应一个残差平方和,点的位置越高,相应的残差平方和越小。构造岭估计,估计参数bl=inv(z’z + kI)*z’Y ,其中k为岭回归参数。当k=0时,估计参数就是普通最小二乘估计。当k增加时,所有的参数估计的绝对值都不断变小,对参数估计的偏差越大。但随k增加,矩阵inv(z’z + kI)主对角元素Cii(k)将不断减少,即回归系数的误差平方和将下降,岭估计的方差膨胀系数会随k的增加而减少。所以在k取适当的值时,用岭回归估计出的参数比用最小二乘法估计的参数更稳定。一般而言,k的取值范围为(0,0.5),在这个区间内,岭回归的方差膨胀系数Cii(k)≤10,说明共线性很小。
本文用MATLAB选取k范围为[0.01,0.02]。利用膨胀系数C=inv(z'z+k*I(3))*z'z*inv(z'z+k*I(3)),选择出使C≤10的k。当k取[0.013,0.02]时,方差膨胀系数都小于10,特别当k等于0.02时,方差膨胀因子最小(见表一)。绘制岭迹图k取0.02时,参数的估计值趋于稳定。自变量最高价的估计参数也改变了符号,其对日收盘价的影响从负效应变为正效应,这也符合经济逻辑。据此,可以建立岭回归估计方程为Y(i,1)=3.7256+1.2812* z(i,1)+2.1984* z(i,2)+ 2.1636*z(i,3),把标准化后的自变量经过还原后,回归方程为Y(i,1)= -3.6616+0.2249* x(i,1)+ 0.3815* x(i,2)+ 0.3857* x(i,3),此时R方为0.9807,F值为4024.7,经过岭估计的回归拟合成立,且消除共线性的影响。
四、结论
本文运用岭回归的方法解决了多重共线性的影响,得到了中国银行股票日收盘价与开盘价、最高价、最低价的回归方程。bb(i,1)= 0.2249,表示每增加一个单位的开盘价,会使当日收盘价增加0.2249个单位;bb(i,2)= 0.3815,表示每增加一个单位的最高价,会使当日收盘价增加0.3815个单位;bb(i,3)= 0.3857,表示每增加一个单位的最低价,会使当日收盘价增加0.3857个单位。这说明已知股票的开盘价、最高价、最低价,有利于估测该股票的收盘价。
参考文献
[1]刘广丽. 岭回归方法在股市中的应用[J]. 金融经济,2007(16).
[2]杨楠. 岭回归分析在解决多重共线性问题中的独特作用[J]. 统计与决策,2004(03).
(责任编辑:刘晶晶)
【关键词】岭回归 多重共线性 膨胀系数
一、背景
在计算股票收益率时,人们往往运用收盘价计算股票的收益率,而忽略当日股价变化情况。如果在每日闭市之前,能观察出今日的开盘价、最高价、最低价,就可准确预测出今日的收盘价。刘广丽(2007)利用岭回归的方法,对我国上海股市进行研究,建立了多元线性回归模型,并进行预测。本文通过编写MATLAB程序,用2011年242个交易日的数据,对“中国银行”股票价格进行岭回归分析。
二、模型建立
首先,建立回归方程。Y(i,1)=b(1,1)+b(2,1)*x(i,1)+b(3,1)*x(i,2)+ b(4,1)*x(i,3) ,其中Y(i,1)代表日收盘价,x(i,1)代表日最高价,x(i,2)代表日最低价,x(i,3)代表日最高价。经过回归得到线性方程Y(i,1)=0.0023-0.5253* x(i,1)+ 0.7818* x(i,2)+ 0.7433* x(i,3)。回归得到的R方为0.9969,F值为25349。因此,可以初步判断上述回归方程成立。但由于自变量间可能存在严重共线性,需要对其共线性进行分析。
其次,对自变量进行标准化处理。令z(i,j)=(x(I,j)-)/,为自变量的样本均值。得到的z矩阵,为标准化的自变量。对z进行线性回归Y(i,1)=bb(1,1)+ bb(2,1)* z(i,1)+bb(3,1)*z(i,2)+bb(4,1)*z(i,3),得到回归方程为Y(i,1)=3.7256-2.9928* z(i,1)+ 4.506* z(i,2)+ 4.1702*z(i,3)。最后,观察方差膨胀系数。由于方差的膨胀系数VIF为inv(z’z)主对角线上的数,可观察到VIF1=237.8; VIF2=162.17; VIF3=153.03,本模型存在严重的多重共线性。
三、岭回归分析
岭回归法是A.E.Horel在1962年提出的一种能诊断和处理多重共线性的方法。在多重共线性非常严重的情况下,两个共线变量的系数之间的二维联合分布是山岭状曲面,曲面上的每个点均对应一个残差平方和,点的位置越高,相应的残差平方和越小。构造岭估计,估计参数bl=inv(z’z + kI)*z’Y ,其中k为岭回归参数。当k=0时,估计参数就是普通最小二乘估计。当k增加时,所有的参数估计的绝对值都不断变小,对参数估计的偏差越大。但随k增加,矩阵inv(z’z + kI)主对角元素Cii(k)将不断减少,即回归系数的误差平方和将下降,岭估计的方差膨胀系数会随k的增加而减少。所以在k取适当的值时,用岭回归估计出的参数比用最小二乘法估计的参数更稳定。一般而言,k的取值范围为(0,0.5),在这个区间内,岭回归的方差膨胀系数Cii(k)≤10,说明共线性很小。
本文用MATLAB选取k范围为[0.01,0.02]。利用膨胀系数C=inv(z'z+k*I(3))*z'z*inv(z'z+k*I(3)),选择出使C≤10的k。当k取[0.013,0.02]时,方差膨胀系数都小于10,特别当k等于0.02时,方差膨胀因子最小(见表一)。绘制岭迹图k取0.02时,参数的估计值趋于稳定。自变量最高价的估计参数也改变了符号,其对日收盘价的影响从负效应变为正效应,这也符合经济逻辑。据此,可以建立岭回归估计方程为Y(i,1)=3.7256+1.2812* z(i,1)+2.1984* z(i,2)+ 2.1636*z(i,3),把标准化后的自变量经过还原后,回归方程为Y(i,1)= -3.6616+0.2249* x(i,1)+ 0.3815* x(i,2)+ 0.3857* x(i,3),此时R方为0.9807,F值为4024.7,经过岭估计的回归拟合成立,且消除共线性的影响。
四、结论
本文运用岭回归的方法解决了多重共线性的影响,得到了中国银行股票日收盘价与开盘价、最高价、最低价的回归方程。bb(i,1)= 0.2249,表示每增加一个单位的开盘价,会使当日收盘价增加0.2249个单位;bb(i,2)= 0.3815,表示每增加一个单位的最高价,会使当日收盘价增加0.3815个单位;bb(i,3)= 0.3857,表示每增加一个单位的最低价,会使当日收盘价增加0.3857个单位。这说明已知股票的开盘价、最高价、最低价,有利于估测该股票的收盘价。
参考文献
[1]刘广丽. 岭回归方法在股市中的应用[J]. 金融经济,2007(16).
[2]杨楠. 岭回归分析在解决多重共线性问题中的独特作用[J]. 统计与决策,2004(03).
(责任编辑:刘晶晶)