论文部分内容阅读
分位数回归和变量选择方法LASSO提出以来,由于其稳定的估计,优良的估计效率得到了广泛应用.分位数回归能够从不同角度分析数据,变量选择的提出使模型具有了处理高维数据的能力.本文主要研究在复杂情况下的分位数回归变量选择,即医疗费用数据和离散数据.由于个体观察的相关性以及分布不连续导致针对以上两种数据进行分位数回归以及变量选择相对困难.本文根据学者在该领域的相关研究,提出了针对以上两种特殊数据进行分位数回归以及变量选择的方法,并验证其有效性.对于医疗费用数据,采用部分非线性单指标模型(PNSIM)进行建模,并采用两步法进行系数估计和变量选择.第一步采用基于样条的两步估计方法对模型的非参数部分进行估计,当非参数可加部分为阶可导时,使用样条方法得到的估计量以的速度收敛.并且该方法能够解决维数祸根问题.第二步在求得非参数部分的估计后,再进行系数估计以及变量选择.部分非线性单指标模型具有良好的灵活性,具有以往提出模型的大部分优点.对于离散数据,通过构造连续随机变量,使其分位数与响应变量分位数一一对应,进而能够使用传统分位数方法进行处理,并在此基础上进行变量选择.本文按照如下结构展开.第一章为文献综述,介绍近年来该领域的发展以及相关学者的研究.并且介绍本文的研究内容和创新之处.第二章的重点在于使用部分非线性单指标模型对医疗费用数据进行建模,运用基于样条的估计方法对可加模型的非参数部分进行估计,并且在此基础上进行系数的估计以及变量选择,本文在这里采用自适应LASSO惩罚项进行变量选择.章节最后给出相应的迭代方法,模拟,实例分析以及相关渐近性质的证明.第三章的重点在于对离散数据进行分位数回归变量选择.通过对响应变量进行恰当的处理,使传统分位数回归方法能够应用到离散数据.在此基础上再进行变量选择.本章最后给出相应的模拟,以验证提出方法的有效性.迭代算法和相关渐近性质的证明亦在文中给出.第四章给出本文总结,以及未来可能的研究方向.综上,本文主要介绍对医疗费用数据用部分非线性单指标模型(PNSIM)进行建模.对于离散数据,将其进行转换处理后再进行自适应LASSO变量选择.文中给出的估计量均具有良好的性质,并且避免了维数祸根的问题,对于处理高维解释变量具有一定的优越性.从计算效率来看,第二章中的非参数部分的估计最终转化为对相关线性模型的求解,避免了多次迭代,极大的提高了运算速度.