论文部分内容阅读
在对实际数据的分析研究过程中,由于实际问题往往是多因素多变量的,因此常用到多元统计分析的方法.本文在主成分分析的基础上,基于其缺点,利用改进的主成分分析方法—稀疏主成分分析,对于我国金融业机构的财务数据进行了一系列分析,试图探寻金融业机构的实际业务变化在统计层面上的反映.本文选取的数据来自金融业内部不同行业的多家机构的财务数据,这些数据覆盖了一个较长的历史时期,从中可以挖掘出一些规律性的趋势.由于财务数据之间往往存在比较复杂的相互关系,因此我们选择主成分分析方法,来解决原始数据之间明显的共线性问题.但是在解决共线性之余,由于传统的主成分分析方法所得的主成分往往与所有的变量都相关,这使得解释主成分的含义变得非常困难.为了解决这一问题,我们引入了改进的主成分分析方法—稀疏主成分分析.通过一系列有效地约束条件,我们可以将一些较小的主成分负载系数“收缩”到0,同时对所得的主成分的性质不会有太大的影响.Lasso最早是作为多元线性回归中的一种变量选择方法被提出的,运用lasso可以得到稀疏的回归系数,而当将主成分求解问题转化为线性回归问题以后,我们同样可以为主成分求解问题添加lasso约束,这样就得到了稀疏主成分分析的雏形.但是当观测数少于变量数时,lasso约束不能保证结果的唯一性,因此需要进一步添加elastic net约束,来保证主成分求解结果的唯一性.这样,完整的稀疏主成分分析方法就形成了.之后,本文首先对于金融业内部的三个小行业运用稀疏主成分分析方法进行了研究,通过大量的对比,探讨如何在稀疏主成分分析过程中确定相关参数的值,以获得性质比较优良的主成分,之后利用已经确定的参数值,对于多个时间截面上的分行业数据进行稀疏主成分分析,观测第一主成分贡献率随时间变化的情况.之后,将金融业的全体数据放在一起,运用稀疏主成分分析的方法,观察对于金融业全体来说,其第一主成分的贡献率随着时间变化有怎样的波动趋势,同时与分行业的第一主成分贡献率的波动趋势进行比较.我们发现,第一主成分的贡献率波动趋势与实际的行业经济形势之间,存在着一定的关系.