论文部分内容阅读
变量选择是统计建模的一项基础而重要的工作,我们希望一个好的统计模型应该只包含那些少数的与响应变量真正相关的协变量,以达到比较好的预测效果。另一方面,我们希望变量选择方法是稳健的,尤其是当数据中存在异常值时,变量选择的结果不至于受到很大影响而变得不稳定。本文的研究目的是对纵向数据或者更加复杂的高维带有删失的数据,提出一系列稳健的变量选择方法。本文的主要结果和创新之处在于:第一,我们介绍纵向数据在线性回归模型中的稳健变量选择方法。我们建立了惩罚稳健估计方程,给出了高效的算法,并证明了在某些条件下,我们的变量选择方法具有Oracle’性质(Fan等(2001)[26])。我们在模拟中比较了几种文献中常用的惩罚函数的效果,特别比较了当数据中存在异常值时,稳健方法和非稳健方法的表现。我们还将该方法用在一组实际的医学黄体酮激素纵向数据中(数据下载网址:http://www.lancs.ac.uk/diggle/.),进一步说明我们方法的实际效果。该方法的创新之处在于对可能存在异常值的纵向数据,我们的方法效果稳健,而且通过在惩罚稳健估计方程中加入相关结构,可以提高变量选择和估计的效率。第二,我们对纵向数据的线性混合效应模型,提出了一种稳健的对固定效应和随机效应同时进行变量选择的方法。我们通过EM算法来计算估计结果。我们证明了在自适应的LASSO惩罚函数下,我们的变量选择方法具有Oracle’性质。在模拟中,我们分别在固定效应和随机效应以及响应变量中加入异常值,来考察我们方法在各种情况下的稳健性表现,模拟结果表明我们的方法对各种污染方式都具有较好的抵抗能力。最后,我们将所提的方法用到黄体酮激素数据和CD4数据实际数据中(下载网址同上),进一步阐明方法的实际意义。该方法的创新之处除了对异常值的稳健性以外,可以对固定效应和随机效应同时进行变量选择,这样可以避免对模型有过多的可能误判的先验性假定。第三,我们针对更加复杂的超高维带固定删失的截面数据,利用比较稳健的惩罚分位数回归的方法,提出一种两步变量选择和估计的方法。我们证明了当删失概率能够被相合地估计时,第一步变量选择具有很好的降维效果,并能达到接近最优的收敛速度,在此基础上,第二步的变量选择能够修正第一步的偏差,达到Oracle性质。我们还将该方法用在分析一组实际的Boston房价数据中(数据下载网址:http://lib.stat.cmu.edu/dataset8/boston-corrected.txt),得到的结果说明我们的方法能够很好地处理高维带有固定删失的数据。本文总共分为五章.第一章绪论,主要进行文献综述,介绍本文的研究背景、研究动机及主要研究内容.第二章介绍纵向数据的线性回归模型的稳健变量选择方法,包括估计方法,算法,大样本性质和证明,数值模拟和实例分析.第三章研究纵向数据的线性混合效应模型的稳健变量选择方法,包括估计方法,算法,理论性质和证明过程,数值模拟和实证分析。第四章主要讨论超高维带有固定删失的截面数据的稳健的变量选择方法,内容有方法介绍,算法,理论性质及证明,数值模拟和实例分析。第五章对本文研究结果进行总结,并对新的研究方向进行展望.