论文部分内容阅读
随着数据获取技术的高速发展,人们在生物信息学、医药卫生等领域获得的信息越来越多,数据维数越来越高,传统的模型选择方法的应用受到了制约.高维数据分析与建模是目前统计领域研究的热点之一,应用广泛,如何降维是进行高维数据分析的一大挑战.传统COX比例风险回归模型是生存资料分析最常用的方法,但对高维数据已不再适用.变量选择方法是对这些高维数据进行降维处理的有效办法,比较典型的变量选择方法有SCAD和ADS.因此本文将普通线性模型下的SCAD和ADS方法应用到COX比例风险回归模型中,提出了该模型下的SCAD和ADS变量选择方法,并研究其相关性质,主要内容如下:(1)本文给出了COX比例风险模型下SCAD方法的定义,构造了β的SCAD惩罚函数的估计量,探讨SCAD方法用于高维生存数据分析的大样本结果,证明了SCAD惩罚估计量具有oracle性质;提出了一种SCAD变量选择方法,对LASSO变量选择方法进行了改进,该方法保留初始模型中较大的参数,将贡献较小的变量系数压缩为0,有效降低了模型的偏差;利用数值模拟验证SCAD方法能处理共线性问题,选出真实的模型,并将该方法与LASSO方法比较,结果表明SCAD方法优于LASSO方法,实例验证了SCAD方法的合理性.(2)本文给出COX比例风险模型下ADS方法的定义,证明了ADS估计量具有oracle性质,理论上说明了该方法可以实现COX比例风险模型的变量选择,并给出相应的参数估计.基于数据中常见的变量维数大于样本量的情况,提出了ADS变量选择方法,通过数值模拟,结果显示ADS拟合效果良好,优于LASSO和DS方法.