缺失数据下几类回归模型的模型选择和模型平均

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：jealy0717

【摘要】

：

统计学是一门收集数据、分析数据和解释数据的学科.当实际工作者获取了一组数据后,可以利用统计学工具拟合出众多模型,但如何寻找出最合适的模型一直是统计学的热门研究课题.

【作者】

：

曾婕

【出处】

：

北京工业大学

【发表日期】

：

2020年01期

【关键词】

：

缺失数据回归模型模型选择模型平均

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计学是一门收集数据、分析数据和解释数据的学科.当实际工作者获取了一组数据后,可以利用统计学工具拟合出众多模型,但如何寻找出最合适的模型一直是统计学的热门研究课题.太过复杂的模型可能导致估计或预测的方差过大,而过于简单的模型又可能造成估计或预测存在较大的偏差.为了解决此问题,在过去的几十年,学者们提出了多种模型选择准则和方法,如AIC(Akaike’s information criterion)、BIC(Bayesian information criterion)、FIC(focused information criterion)、Mallows’Cp、交叉验证、LASSO(least absolute shrinkage and selection operator)和 SCAD(smoothly clipped absolute deviation)等等.依据这些准则或方法,可以从众多的候选模型中寻找到最佳的模型,然后把选定的模型当作真实的数据产生过程,之后的统计推断完全依赖于该模型.模型选择方法虽然在一定程度上解决了上述问题,但这些方法本身也有着明显的缺陷.例如,稳健性不够理想,忽视模型选择阶段产生的不确定性,可能遗失有用信息,推断存在高风险等.为了避免这些缺陷,一个行之有效的方式是采用将多个模型组合起来的模型平均方法.与模型选择方法只挑选出单一的最优模型不同,模型平均方法组合了来自多个候选模型的估计或预测,不仅考虑了模型选择阶段带来的不确定性,还避免了选取单一模型的潜在风险,从而能减小估计或预测的均方误差,提高稳健性.近年来,模型平均方法得到了长足的发展,取得了大量的研究成果.其中一个重要的研究方向是频率模型平均(Frequentist model averaging,FMA)方法,它主要关注两个问题:一个是选取模型平均最优权重;另一个是确定模型平均估计量的渐近分布.若单从估计或者预测的角度来看,模型选择可视为模型平均的特例.然而,模型平均方法不应完全代替模型选择方法,它们可以是互为补充的关系,例如多位学者提出先进行模型选择,进而在选出的模型基础上进行模型平均.缺失数据是现代统计实践中一种重要的复杂数据类型.探究缺失数据下的统计分析方法是近年来统计研究的热点.本学位论文拟在缺失数据下,基于借补方法或逆概率加权方法,讨论几类回归模型(部分线性模型、部分线性变系数模型以及线性分位数回归模型)的模型选择和模型平均问题,推导出具体模型下的模型选择准则以及平均估计量的渐近分布.具体来说,论文的主要内容包括以下四个方面.(1)对于半参数部分线性模型,讨论响应变量随机缺失下的模型选择和模型平均问题.基于借补方法和权函数方法得到各候选子模型下参数的估计及其渐近性质,推导FIC模型选择准则和FMA估计量,给出模型平均估计量的渐近分布,为兴趣参数构造合适的置信区间.通过数值模拟验证所提方法的有限样本表现.(2)对于响应变量随机缺失下的部分线性变系数模型,研究基于借补法和剖面最小二乘技术的FIC模型选择准则和相应的S-FIC(smoothed FIC)模型平均估计量.在局部误设定框架下,证明各候选子模型中兴趣参数估计量的渐近正态性,在此基础上给出FIC计算公式,以进行模型选择和构造S-FIC模型平均估计量的权重函数,最后推导出FMA估计量的渐近性质.模拟研究和实例分析均表明所提方法的有效性.(3)以响应变量随机缺失下的部分线性变系数模型为研究对象,通过基于协变量平衡倾向得分的逆概率加权方法得出FIC计算公式和FMA估计量.在局部误设定框架下,探讨FIC和FMA的理论性质.模拟研究不仅说明了基于协变量平衡倾向得分的逆概率加权方法的稳健性,而且体现出所提出的模型平均估计方法的优越性.(4)对于线性分位数回归模型,探究协变量随机缺失时的模型平均问题.首先定义各候选子模型下回归系数的加权分位数回归估计量,然后证明各候选子模型下参数及其函数的估计量的渐近正态性,接着给出模型平均估计的渐近分布,最后基于模型平均估计量构造覆盖真实兴趣参数的概率趋近于名义水平的置信区间.模拟研究表明,就均方误差和覆盖概率而言,所研究的模型平均估计优于相应的模型选择估计.

其他文献

二维势垒位错滑移模型的建立及材料强度计算

结构材料是以力学性能为基础,具有一定承载能力的材料。随着科学技术高速发展,结构材料的服役环境将会越来越复杂。为了保证工程构件的安全,必须要求材料具有足够的强度。由

学位

二维势垒位错滑移模型任意晶体广义层错能Sachs模型材料强度

CoCrFeMnNi高熵合金组织调控及强韧化机制研究

目前,被广泛研究的面心立方结构CoCrFeMnNi高熵合金虽然具有良好的塑性和优异的低温断裂性能,但其室温强度较低,从而极大地限制了其作为结构材料的应用。为此,本文以等原子比

学位

高熵合金氮合金化搅拌摩擦加工冷轧退火组织力学性能

十字花科Helitron转座子分布特征与油菜品种演化关系研究

Helitron转座子是一种具有滚环复制(Rolling cycle replication)特征的DNA转座元件,2001年首次在拟南芥、水稻和线虫中被定义和报道,随后发现其广泛存在于真核生物中,在物种

学位

十字花科转座元件比较基因组学进化生物信息学

移虫日龄对西方蜜蜂（Apis mellifera）蜂王发育的影响

蜜蜂是一种真社会性昆虫,它们资源共享、分工明确以及信息交流准确。蜜蜂不仅是一种重要授粉昆虫,在农业提质增产和全球生态平衡维持上都具有重要作用,还是一种典型的模式昆

学位

蜂王DNA甲基化级型分化人工育王累代效

PHLDA1调控小胶质细胞激活保护多巴胺能神经元的机制研究

目的:小胶质细胞大量激活和炎症因子的释放可以导致黑质多巴胺能神经元变性死亡,与帕金森病(Parkinson’s Disease,PD)的病理进程密切相关。鉴于此,积极寻求抑制小胶质细胞过

学位

PHLDA1TRAF6小胶质细胞神经炎症多巴胺能神经元

MicroRNA-613靶向ATOH1调控结肠癌生物学功能的机制研究

结直肠癌是全世界最常见的消化道恶性肿瘤之一,在全球发病率排第三,死亡率排第二。2018年全球约有180多万新发病例和88万死亡病例,约占癌症病例和死亡病例的十分之一。各国之

学位

结肠癌miR-613ATOH1JNK1MUC2裸鼠

苜蓿种子重力分选正压预分层喂料系统的优化与试验研究

苜蓿是牧草之王,种植苜蓿是推动畜牧业发展和生态建设的重要手段。我国的苜蓿种植面积和种子需求量都很大。苜蓿种子重力分选是提升苜蓿种子品质的主要方法。重力分选能够按

学位

重力分选分层喂料种子分级种子清选流场模拟模态分析谐响应分析

丝蛋白多梯度凝胶体系的构建及其骨软骨诱导性能研究

具有梯度结构的生物材料能够更好地模拟天然组织,在组织仿生修复方面起着至关重要的作用,是组织工程较理想的基质材料。梯度信号的引入常需要特殊的设备和复杂的工艺,制备具

学位

丝蛋白驱动模块梯度凝胶组织再生

数字图书馆信息生态链价值平衡研究

学位

骨质疏松症GWAS关联位点1p36.12的遗传解析反相关IncRNA的鉴定

骨质疏松症(Osteoporosis)是用骨密度(Bone mineral density,BMD)定义、以骨量减少、骨组织微结构退化为特点,导致骨脆性和骨折易感性增加的骨骼疾病,骨密度的遗传力为50%-85

学位

骨质疏松症全基因组关联研究长链非编码RNAZBTB40ZBTB40-IT1单核苷酸多态性

缺失数据下几类回归模型的模型选择和模型平均

与本文相关的学术论文