论文部分内容阅读
变量选择在统计分析中是一个很重要的话题,而删失数据在实际生活中也十分常见。本文的主要研究是为变系数模型提供系统的变量选择方法,也为固定删失数据的分位数回归给出一种简单、有效的算法。本文主要工作和结论如下:
(1)、基于自适应LASSO和基函数逼近,为纵向数据的分位数变系数模型提供了一种新的变量选择方法。本文研究一类自适应组LASSO惩罚,允许对每组基函数系数的Lα范数进行惩罚,α≥1。所构造的方法具有变量选择的相合性,且变系数函数的估计量达到了相同光滑条件下的最优收敛速度。数值模拟和两个实际数据分析验证了其有限样本性质。
(2)、基于双重自适应LASSO惩罚和基函数逼近,为变系数模型在最小二乘回归和分位数回归下构造了统一的变量选择方法,同时解决变系数模型的三类变量选择问题:(ⅰ)区分系数为变系数函数和常数的协变量;(ⅱ)选择系数为非零函数的协变量;(ⅲ)选择系数为非零常数的协变量。惩罚估计量在变量选择和常、变系数区分上都是相合的。此外,得到的变系数估计量达到了同样光滑条件下的最优收敛速度,而非零常系数的渐近性质和真实模型下估计量的性质一样。数值模拟和实际数据分析验证了所构造方法的有限样本性质。
(3)、基于LASSO-型惩罚和基函数逼近,为超高维分位数变系数模型构造了一种两步方法来进行降维和变量选择。即使在不相关变量个数以样本量的接近指数级增长时,第一步估计量仍是相合的。该方法可以把模型的维数从超高维降到与真实模型大小接近的阶,且真实模型被包含在所选模型中。第二步对第一步之后被选出来的模型采用自适应LASSO惩罚,具有变量选择的相合性。数值模拟和实际数据分析被用来验证该两阶段方法的有限样本性质。
(4)、固定删失数据的分位数回归已经有很多文献研究,但是现存的方法或者不够稳定,或者需要包含修整或者光滑的复杂步骤,使得估计量的渐近性质很复杂。本文通过对某个子集内的数据进行标准的分位数回归,构造了一个简单的估计量。证明了只要条件删失概率的相合估计达到某一种非参数收敛速度,且满足一定的光滑条件,所得系数估计量能达到与Powell估计量相同的渐近效率,是在固定删失的情况下对现存方法的进一步简化。大量的数值模拟表明所构造的估计量稳定且与其他更精致的方法具有可比性。
本文的结论创新之处:一、本文把现有的变量选择方法推广到了分位数变系数模型之下,丰富了变量选择的结果。二、本文解决了不可导的分位数损失函数与惩罚函数之间的平衡,证明了自适应LASSO的变量选择相合性以及非零系数函数的最优收敛速度。三、在超高维最小二乘回归中存在三个问题:(ⅰ)误差要求是次高斯的,(ⅱ)受异常点影响较大,不够稳健,(ⅲ)只能考虑协变量与条件均值之间的关系,不够系统。本文所研究的分位数变系数模型避免了上述问题,并利用线性规划与经验过程等理论证明了LASSO可以把模型降维到与真实模型接近的阶。四、本文在固定删失数据的分位数回归中简化了现存方法,并证明其估计量达到了Powell估计量相同的渐近效率。
本文方法创新之处:一、利用自适应LASSO和分位数损失函数的凸性,为变系数模型,尤其是在分位数回归中,提供了较为系统的变量选择方法。二、本文先利用LASSO对模型进行降维,再用自适应LASSO进行变量选择,解决了超高维分位数变系数模型的变量选择问题。三、本文为固定删失数据的分位数回归提供了一种简单有效的估计方法。
本文将变量选择方法推广到了分位数变系数模型,同时解决了变系数模型中的三类变量选择问题:(ⅰ)区分系数为变系数函数和常数的协变量;(ⅱ)选择系数为非零函数的协变量;(ⅲ)选择系数为非零常数的协变量。本文还解决了超高维分位数变系数模型的变量选择问题,避免了最小二乘回归的重重限制。本文的方法和结论丰富了变量选择的方法,将有助于生物、金融、基因切片等各个领域中重要变量的选取,以精简模型,提高预测精度。本文提供的简单有效的估计方法,有助于对固定删失数据的特定分位数回归的参数进行估计。