论文部分内容阅读
近年来,半参数模型在微观经济与统计等领域具有广泛的应用。由已知研究可知,传统的参数模型(线性回归模型)虽然已经有了一套完整的理论体系,但是它无法刻画独立变量与协变量之间的潜在关系。而现实世界事物的运动规律往往是呈现非线性关系。将线性关系强行运用于非线性数据集中,这会出现模型误判等问题。另一方面,传统的非参数模型,虽说可以不依赖特定的回归模型,但是一旦数据维度过高,相关的估计方法容易遭受维数诅咒(curse of dimensionality)。为了弥补上述两种模型的不足,半参数模型应运而生。半参数模型不仅继承了参数模型中参数的可解释性,还拥有非参数模型的灵活性。本文是基于半参数模型中单指标模型(SIM)进行研究。Fri edman等人在研究投影追踪问题时首次提出单指标模型。通过单指标模型将多维解释变量通过线性变换投影至一维单指标变量上,从而降低了数据维度。单指标模型是一种重要的半参数模型,它是处理多元非参数回归问题的有力工具。由于它将一个多元向量转化为一个单指标参数,具有降维的作用,不仅回避了多元非参数回归中的维数诅咒(curse ofdimensionality),而且抓住了高维数据的重要特征。本文基于单指标模型,首次提出三次多项式单指标模型(CP-SIM)。该模型的灵感来源于魏尔施特拉斯逼近定理(Stone-Weierstrass theorem)。由于一般的单指标模型在估计参数部分β与非参数部分f(.)时,由于参数估计的最优收敛速度高于非参数最优收敛速度,部分采取通过充分性降维方法(SDR)获得β的估计值,再将其带回初始模型,通过核密度估计等方法获取f(.)。在估计f(.)过程中往往需要涉及调参环节,并且容易扩大估计误差。我们基于魏尔施特拉斯逼近定理中闭区间上的连续函数可用多项式级数一致逼近。想通过多项式逼近原理近似连接函数,在一定程度上避免了传统单指标模型在估计连接函数时产生的误差。本文主要讨论连接函数为三次多项式形式的单指标模型,未来研究可拓展成n次多项式情形。通过观察我们所提出的三次多项式单指标模型的模型结构,我们可知模型中除了涉及传统单指标模型的的参数β外,还包含三次多项式的系数。并且我们的参数β不仅存在于一次项中,在二次项,三次项均有出现,这也使得β的估计难度增加。为了简化我们的模型形式,我们通过变量替换,最终将我们的模型化成一个线性模型的矩阵形式。联想到传统线性模型估计参数的最小二乘估计方法,我们可将三次多项式系数向量α的估计值用含有参数β的最小二乘估计值表示。假定α已知的情况下,参数β的估计问题被我们转化为非线性约束的最优化问题。通过求解该问题,得到β的估计值。此处为了求解非线性约束的最优化问题,我们采取了基于K-T(Kuhn-Tucker)方程解的高效处理方法。整个步骤由MATLAB中“fmincon”实现。由此上述步骤我们便得到了三次多项式单指标模型中所含参数的估计值。基于三次多项式单指标模型,为了评价我们给出的相应参数估计方法具有一定的优越性与实用性。在文章第三部分,我们进行了数值模拟。该部分将我们所提出的估计方法与切片逆回归(slice inverse regression),切片平均方差估计(sliced average variance estimate),最小平均方差估计(minimum average(conditional)variance estimation),基于条件密度函数的最小方差估计(minimum average(conditional)variance estimation based on the conditional density functions),方向回归(directional regression)进行对比分析。除此之外我们还设置不同的样本大小及其参数维度进行双重对比分析。从三次多项式单指标模型中参数β的估计误差效果来看,即便随着样本量的增多,还是参数中涉及协变量个数的增加,我们所提出的方法都具有不同程度的领先。除此之外,我们还将我们所提出的方法应用于北美车辆数据以及波士顿房价数据的分析中。我们对两组数据进行了类似的处理步骤。第一步先将数据集分割成训练集和测试集。为了更好的解释,所有变量都各自标准化。基于训练集,我们使用在数值模拟中的六种方法获得对应的参数β估计值。根据Y和βTX的二维关系图,我们可知两者之间并非是简单的线性关系。因此我们可以使用三次多项式单指标模型对数据进行拟合预测分析。结果表明,我们所提出的三次多项式单指标模型具有一定的实用性,并且我们所提出的估计方法,在预测效果上也领先于数值模拟对比的其余五种方法。总体而言,我们提出的三次多项式单指标模型,一定程度上避免了传统单指标模型中估计连接函数所产生的误差,并且给出的相关参数估计方法也具有一定的优越性与实用性。三次多项式单指标模型可以较好的解释现实中一些非线性的数据。但是我们的论文中还是有一些不足之处,需要后期研究进行补充。如所提出的三次多项式单指标模型中参数β的估计是否具有相合性,模型的稀疏性讨论。由于“fmincon”具有一定的局限性,是否可以使用更加优越的解决非线性约束优化问题的算法。我们估计参数时,是先将α表示成一个含有参数β的最小二乘形式,然后再将带回估计参数β的非线性最优化问题中,这样在一定程度上对参数α有所牺牲,是否可以构造一个同时估计两者的方法,能否将我们的三次多项式单指标模型进行推广至n次多项式单指标模型,并且给出估计次数n的方法等。