论文部分内容阅读
偏最小二乘回归分析(Partial Least Squares Regression简记为PLS)是一种新型的多元统计分析方法,最早产生于化学领域。PLS主要用来解决多元回归分析中的自变量存在多重相关性或变量个数多于样本点数等问题,集多元线性回归分析、主成份分析和典型相关分析的基本功能为一体。在一个算法下,同时实现了回归建模、数据结构简化和两组变量间的相关分析,给多元数据分析带来极大的便利。PLS方法已广泛应用于化学计量、工业设计、计量经济学等各个领域。本文分为三章,结构如下:第一章介绍了多元回归分析及其最小二乘估计,在自变量之间存在严重多重相关性时最小二乘估计完全失效。接着,介绍了多元回归的PLS方法。PLS方法能有效解决多重相关性问题。PLS回归方法在处理样本容量小、自变量多的数据方面具有一定优势。在实际问题中,往往是一部分自变量只对某一部分因变量有显著影响,另一部分自变量只对另一些因变量有显著影响,而PLS回归方法所选择的主成分中仍包含所有的自变量,最终建立的回归模型是包括所有自变量的全模型,因此一般的PLS方法并没有完全解决变量间存在严重多重相关性的问题,特别是在自变量个数多,样本量小的情况下。针对这种情况,本文第二章提出了对变量进行双重筛选,即改进的PLS方法。思想如下:在建立PLS回归模型之前先对变量进行筛选,在筛选过程中,自变量和因变量的地位是同等的,既对自变量筛选同时又对因变量筛选。设自变量为x1, x2,…, xm,因变量为y1, y2,…,yp,首先引入一个因变量,并对自变量进行筛选,找出对这一因变量影响显著的自变量组{xi1, xi2,…, xir}(其中{xi1, xi2,…, xir} (?) {x1, x2,…, xm});然后考虑因变量的筛选,这相当于把x1, x2,…, xm和y1, y2,…,yp的地位作一对换,筛选出对前面选出的r个自变量组{xi1, xi2,…, xir}影响显著的因变量组{yj1, yj2,…, yjt}(其中{yj1, yj2,…, yjt}(?){y1, y2,…,yp});接着再筛选自变量,找到对这l个因变量影响显著的自变量组。重复这一过程,直到某步当自变量筛选后,没有因变量可删除,同时也没有因变量可引入。假定这一过程得到的因变量组为{y1, y2,…, yk}其中k≤p,自变量组为{xi1, xi2,…, xir},其中r≤m,对这两组数据按照偏最小二乘回归的建模方法建立回归方程组。从因变量y1, y2,…,yp中删除y1, y2,…, yk后,再按照上述变量选择方法筛选因变量和自变量,得到第二组因变量和对应的自变量,如此往复,直到全部因变量都有了与之相应的自变量组和PLS回归方程组,计算过程结束。在筛选过程中引入或剔除某一变量的依据是判断该变量对模型中变量的“贡献”的大小,即要检验该变量对模型中变量的显著性大小。文章提出的检验统计量服从F分布。本章最后利用改进的PLS方法研究了1991-2007年间影响我国人们生活质量和经济发展的多种因素,得到了较好的分析结果。本文第三章将改进的PLS方法与时间序列ARMA模型结合起来形成了PLS时间序列预测模型,解决了PLS方法不能预测的问题,并利用该方法研究了1985-2007年间我国农民家庭收入水平及城市化问题。