论文部分内容阅读
半参数模型由于同时具有非参数模型的变通性和参数模型的可解释性,近年来,在统计学研究中日益流行。其中,部分线性可加模型(partial linear additive model,PLAM)是半参数模型中较为常见的一类模型,因此对该模型的研究也越来越多。另外,自分位数回归和变量选择方法提出以来,由于其估计的稳定性和优良的估计效率,得到了迅速的发展。分位数回归是从不同的角度分析数据,能够有效解决数据中存在的异方差问题,变量选择则是在模型稀疏假设下,寻找系数有显著效应的变量。所以,本文将分位数回归和变量选择应用到部分线性可加模型当中,用来分析各个因素对医疗费用数据的影响,并适当的提出建议及解决方案。对医疗费用数据的研究一直以来是卫生医疗行业研究的重点,医疗费用关乎最基本的民生问题,对其进行研究也是保障社会医疗体系公平的重要举措。实际中,由于医疗数据的不完整性以及其自身的复杂相关性,使得对它的研究存在一定的困难。医疗费用数据通常具有严重右偏,异方差,非正态等特点,通常情况下,收集到的医疗费用数据具有一定的稀疏性,所以传统的模型和方法不再适用该类数据。本文提出用部分线性单指标可加模型对医疗费用数据进行建模,再结合分位数回归和变量选择的方法对其进行分析,可以有效地解决医疗费用数据中存在的异方差性和稀疏性等问题。在对医疗费用数据的分析中,本文分为两部分对其进行分位数回归以及变量选择的分析,具体如下:第一部分:本文提出了用最小化平均分位数损失估计的方法来实现部分线性单指标可加模型的分位数回归,首先提出基于核函数构造参数部分的分位数回归意义下的相合估计以及非参数的渐近估计,在此相合估计和渐近估计的基础上,采用局部多项式回归通过迭代的方式进一步得到另一参数和非参数函数的估计,该估计可达最优收敛速率。第二部分:基于第一部分分位数回归该部分进一步地提出对部分线性单指标可加模型进行变量选择,模型采用自适应LASSO惩罚项进行系数压缩,算法则是采用最小角回归算法(LARS),并且证明了自适应LASSO惩罚项变量选择的Oracle性质,Oracle性质主要包含两个方面,一是变量选择的相合性,即当样本量n趋于无穷时,选择出真实模型的概率趋近于1,二是参数估计结果具有渐近正态性。另外,本文对上述所提方法和模型给出了相应的数值模拟以及渐近性质,一方面,从估计结果来看,通过模拟实验发现文中给出的估计方法都具有良好的性质,分位数回归方法得到了良好的估计结果,同时得出自适应LASSO的变量选择方法对于处理稀疏性变量数据具有一定的优越性。另一方面,从计算效率来看,分位数回归方法中的局部多项式求解最终转化为对相关线性模型的求解问题,极大的提高了运算效率。实例分析部分,我们提出将部分线性单指标可加模型运用到慢性心力衰竭(CHF)患者的临床医疗研究中,该数据记录了患者每次到医院就医的情况,研究对象年龄都超过60岁,通过对该数据分位数变量选择我们发现非患病服务情况在各个分位水平下效果都十分显著,种族因素也随着分位水平的提高影响效果逐渐显著,年龄和死亡情况在一定分为水平下有影响效果,而性别和追踪时间在任何分位数水平下对医疗费用基本没有影响。综上所述,本文提出将分位数回归和变量选择的方法应用于部分线性单指标可加模型中能够有效的对医疗费用数据进行统计分析。