论文部分内容阅读
纵向数据具有“组间独立,组内相关”的特点,能够反映个体间的差异和个体内部的变化,在医学、流行病学、工业等领域,都已成为统计学者们研究的重点问题。随着科技的迅猛发展,观测所得到的数据维数更高且数据结构更复杂。因此,对于复杂数据需要更灵活的模型来拟合。考虑到单指标变系数模型是半参数模型中一个非常重要且具有很大吸引力的模型,它不仅可以降低模型错误设定的风险,而且能够克服非参数模型所无法克服的“维数祸根”问题,在实际应用中非常灵活。虽然纵向数据的变量选择问题已有很多文献研究,但关于单指标变系数模型的问题研究较少。因此,研究纵向数据下单指标变系数模型的变量选择问题具有很重要的理论意义和使用价值。本文基于单指标变系数模型,考虑了纵向数据的情况,对模型进行变量选择。针对模型含有纵向数据的问题,存在多种处理方法,本文将利用B样条的方法对模型进行参数估计,同时,需要使用到SCAD(Smoothly Clipped Absolute Deviation Penalty)惩罚进行变量选择。本文将两种方法结合作为本文所需要的统计推断方法。第一章,主要介绍了模型的研究背景和意义,模型的研究现状、数据存在的种类以及变量选择方法,最后介绍全文的结构安排和研究内容及思路。第二章,首先给出了纵向数据下单指标变系数模型的形式及模型的基本假定;之后介绍了一些预备知识,包括变量选择的方法,如LASSO方法、SCAD惩罚方法,以及纵向数据的处理方法。第三章,基于SCAD惩罚和B样条估计方法,提出了纵向数据下单指标变系数模型中的变量选择方法,证明了我们的变量选择方法具有一致性、稀疏性、渐近正态性等优良统计性质。第四章,数值模拟研究。通过蒙特卡罗模拟对使用SCAD惩罚方法进行变量选择的模型效果进行评估,并在不同的样本量下,将我们所采用的基于自适应调节参数(ATP)方法和已有文献中使用固定调节参数(CTP)方法进行变量选择的效果进行了对比,得到以下结论:第一,当样本量不变时,取值为零的参数的估计值被正确估计为0和取值为非零参数被错误估计为0的个数的平均值都接近真实情况;第二,随着样本量的增加,估计误差也在逐渐减少;第三,随着样本量的增加,基于ATP比基于CTP的变量选择方法更有效。模拟说明本文研究结果是有效的。