论文部分内容阅读
部分变系数单指标模型是一个半参数模型,它结合了变系数模型和单指标模型的优点。然而,在实际应用中,当协变量维数比较大时,会使得回归方程包含某些对响应变量影响很小甚至没有影响的协变量,从而导致对响应变量预测的精度下降和模型中参数的估计具有偏差。因此,统计建模时,如何识别协变量对模型的重要性,挑选重要的协变量进行建模是统计研究的一个重要课题。模型的变量选择可以简化模型从而降低或避免参数回归分析中的“维数祸根”风险,而且也有利于模型的预测。因此,本文将利用B样条和SCAD(SmoothlyClippedAbsoluteDeviation)惩罚相结合的方法研究响应变量随机缺失下部分变系数单指标模型的变量选择。
本文的前两章简要介绍了本文的选题背景和研究现状以及预备知识。
第三章使用基函数展开和SCAD惩罚方法相结合,提出一种有效的变量选择方法。首先,基于完全观测数据(忽略有缺失的数据),使用B样条基函数对未知的变系数函数θ(·)和联系函数g(·)进行展开;其次,结合模型的可识别条件‖β‖=1,采用Yu和Reppe提出的“去一分量”方法构造惩罚估计方程;然后,为了提高参数的估计效率,采用Zhou和Wang的方法对缺失数据进行插补;最后,用交叉验证的方法选取模型中的调整参数和样条的节点数,对于惩罚估计量的计算给出了一个逐步迭代的算法。在适当的选择样条的节点数和调整参数的条件下,得到了变系数函数θ(·)和单指标参数?的正则性估计量以及它们的收敛速率,并给出了它们的证明。
第四章,在响应变量随机缺失的机制下,从样本容量、缺失概率、协变量U的三种概率函数方面进行数值模拟,使用三种不同的估计方法:基于完全观测数据集(忽略有缺失的数据)的SCAD方法、基于插补数据集的SCAD方法、基于完整数据集(没有数据缺失)的SCAD方法,对单指标参数β和变系数函数θ(·)的被正确识别的个数、单指标参数β的广义均方误差(GMSE)、变系数函θ数(·)的根均方误差(RASE)分别进行了比较。模拟结果表明,在有限样本的情况下,基于插补数据集的SCAD方法正确识别单指标参数β和变系数函数θ(·)的个数都要高于基于完全观测数据集(忽略有缺失的数据)的SCAD方法;基于完整数据集(没有数据缺失)的SCAD方法中单指标参数β的广义均方误差和变系数函数θ(·)的根均方误差都比较小;随着缺失概率的增加,两种方法的性能差别越来越大。当样本容量增加时,基于完整数据集(没有数据缺失)的SCAD方法的结果越来越接近基于完整数据集(没有数据缺失)的SCAD方法。
本文的前两章简要介绍了本文的选题背景和研究现状以及预备知识。
第三章使用基函数展开和SCAD惩罚方法相结合,提出一种有效的变量选择方法。首先,基于完全观测数据(忽略有缺失的数据),使用B样条基函数对未知的变系数函数θ(·)和联系函数g(·)进行展开;其次,结合模型的可识别条件‖β‖=1,采用Yu和Reppe提出的“去一分量”方法构造惩罚估计方程;然后,为了提高参数的估计效率,采用Zhou和Wang的方法对缺失数据进行插补;最后,用交叉验证的方法选取模型中的调整参数和样条的节点数,对于惩罚估计量的计算给出了一个逐步迭代的算法。在适当的选择样条的节点数和调整参数的条件下,得到了变系数函数θ(·)和单指标参数?的正则性估计量以及它们的收敛速率,并给出了它们的证明。
第四章,在响应变量随机缺失的机制下,从样本容量、缺失概率、协变量U的三种概率函数方面进行数值模拟,使用三种不同的估计方法:基于完全观测数据集(忽略有缺失的数据)的SCAD方法、基于插补数据集的SCAD方法、基于完整数据集(没有数据缺失)的SCAD方法,对单指标参数β和变系数函数θ(·)的被正确识别的个数、单指标参数β的广义均方误差(GMSE)、变系数函θ数(·)的根均方误差(RASE)分别进行了比较。模拟结果表明,在有限样本的情况下,基于插补数据集的SCAD方法正确识别单指标参数β和变系数函数θ(·)的个数都要高于基于完全观测数据集(忽略有缺失的数据)的SCAD方法;基于完整数据集(没有数据缺失)的SCAD方法中单指标参数β的广义均方误差和变系数函数θ(·)的根均方误差都比较小;随着缺失概率的增加,两种方法的性能差别越来越大。当样本容量增加时,基于完整数据集(没有数据缺失)的SCAD方法的结果越来越接近基于完整数据集(没有数据缺失)的SCAD方法。