不可忽略缺失数据下分位数回归模型的若干研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:LUEYONGS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据在工农业生产,药物研发,流行病学,人口普查,民意测验等领域普遍存在.数据缺失会导致获得的样本信息减少,降低模型效率,增加模型复杂度,不利于进行数据分析和统计推断.依据不同的缺失机制,缺失数据被分为完全随机缺失,随机缺失和非随机缺失三种.前两种缺失机制与缺失数据本身无关,一般称为可忽略缺失,而最后一种缺失机制与缺失数据有关,称为不可忽略缺失.在不可忽略缺失数据情形下,参数可识别问题往往给估计带来很大的挑战.缺失数据的处理方法强烈依赖于缺失机制,误用缺失数据的处理方法将会对统计结果产生很大的偏差,导致错误的结论.分位数回归相对于传统的条件均值回归有许多优点,它不仅可以度量协变量在分布中心的影响,还可以刻画在分布尾部的影响,反映协变量对响应变量整个条件分布的异质影响和局部之间的相关关系.此外,分位数回归方法不需要对误差分布作特定的假设.所以在存有异方差或异常点的重尾误差的情况下,分位数回归比最小二乘回归更加稳健.通过考虑不同的分位数,我们可以进一步理解协变量对响应变量的影响.在实际数据分析,尤其是维数较高时,分位数回归模型可能包含许多不相关的协变量.在这种情况下,最重要的是找出哪些协变量与响应变量有关,以便更好地解释模型,提高估计的效率.文献里关于这方面的问题出现了许多研究成果,例如基于信息准则的方法,基于惩罚的变量选择方法,包括Lasso,SCAD,Elastic net等.本文主要研究基于响应变量不可忽略缺失,结合经验似然与变量选择方法讨论分位数回归参数估计的问题.第一章简要回顾缺失数据,分位数回归,经验似然和变量选择的背景及研究现状.第二章提出工具变量处理参数可识别问题,并应用广义矩估计方法估计倾向得分函数.在不可忽略缺失情形下,利用核方法构造光滑加权估计方程并提出经验似然估计.当维数较高时,本文提出带有惩罚的变量选择方法,此方法能有效地同时选择重要变量和估计参数.在适当选择调节参数的前提下,估计具有相合性和Oracle性质.在第三章中,当协变量维数发散时,本文证明惩罚经验似然方法仍然适用于分位数回归模型的估计问题,这时需要假设当样本量n趋于无穷时,维数p以适当的速率增加到无穷大.第四章以实际数据为出发点,讨论部分线性分位数回归模型,用B样条基函数逼近非参数函数部分,并基于逆概率加权方法构造偏差修正的光滑估计方程.此外,本文提出对线性部分采用惩罚经验似然估计作变量选择.第五章总结全文,并对今后的工作进行展望.本文的创新点主要有三点:(1)提出借助工具变量处理参数可识别问题,应用广义矩估计方法估计未知的不可忽略倾向得分函数;(2)提出光滑加权经验似然估计,证明在真实分位数回归参数下构造的对数似然比具有渐近加权卡方和分布的性质,由此可构造置信域或检验统计假设;(3)针对协变量维数较高情形,本文结合经验似然和SCAD方法,提出惩罚经验似然方法.特别地,此方法在协变量维数发散时仍然适用。
其他文献
随着很多实际问题可以转化为图论问题,图染色发挥越来越重要的作用。作为图连通染色的割版本问题,Chartrand等人在2018年提出了图的彩虹不连通染色。基于图的彩虹顶点连通染色和彩虹不连通染色,同时,为解决频率分配,货物拦截中的相关问题,Bai等人提出了图的彩虹顶点不连通染色。本文主要研究了图的彩虹顶点不连通染色。令G是一个非平凡连通的顶点染色图。对于图G的顶点子集X,如果X中的任意两个顶点有不同
在本文中,我们引入实拟全纯曲线的模空间并研究了它的性质。我们计算了实拟全纯曲线的模空间维数,同时建立了一些3维情形的重要不等式。最后,我们给出我们结果在将来的可能应用。在第一章和第二章,我们首先给出我们主要结果的介绍和确立我们的惯例与符号。第三章,我们给出实拟全纯曲线的模空间完整的定义,并且计算了实拟全纯曲线的模空间在给定边值条件下的实质维数。主要结果的证明由一系列的引理组成,我们使用了裤子归纳法
本博士论文主要研究组合数论中的几个重要问题:关于不变量disc(G)的确定和反问题,关于不变量skexp(G)(G)的确定和反问题,某些二项式系数的最大公因子问题以及最小公倍数倒数和的上界估计问题。设G为有限(加法)交换群,我们用disc(G)表示最小的正整数t,使得群G上的任何一个长度大于等于t的序列S都有两个不同长度的非空零和子序列。在第二章中,我们就一些新的群G,确定了 disc(G)的值。
近些年,图的连通染色得到了蓬勃的发展。图的连通染色是研究在边染色情况下图的连通性问题,例如:彩虹连通染色,正常连通染色,单色连通染色和无冲突染色。我们知道,研究一个图的边连通性有两种方式,一种是通过路来研究,而另外一种是通过边割研究。上述四类连通染色均是通过路来研究边染色图的边连通性。Chartrand等人于2018年提出了彩虹不连通染色的概念,彩虹不连通染色是通过彩虹边割来研究一个图的彩虹连通性
动脉粥样硬化是一种慢性炎症性疾病,涉及多种细胞的变化,包括平滑肌细胞异常增殖和迁移、巨噬细胞浸润并吞噬脂质成分以及细胞外基质堆积等。Nogo-B已被证实具有多种病理生理功能,如抑制平滑肌细胞增殖迁移、促进巨噬细胞黏附和炎症反应等。然而,我们并不清楚Nogo-B是否能影响动脉粥样硬化发生发展及斑块稳定性。本论文中,我们发现在动脉粥样硬化患者血浆中Nogo-B水平升高,并与ApoE4水平呈负相关。为了
近年来,来自于微分几何、数学物理等领域中的指数非线性问题越来越受到关注,本文主要考虑指数非线性问题的爆破分析与紧性分析,结合最佳几何不等式,对相关问题进行深入研究.首先,我们利用凸重排技巧以及水平集估计,建立涉及N-Finsler-Laplacian算子和Lp范数扰动的最佳Trudinger–Moser不等式.此外,我们还通过爆破分析和容度技巧得到极值函数的存在性.其次,我们考虑带边黎曼面上的预定
本论文主要关注图像分解问题,提出了两个非利普希茨(non-Lipschitz)下卷积(infimal convolution,IC)分解模型并将其应用到了一些图像处理问题当中,如图像分割、卡通-纹理分解和Retinex问题。我们的贡献主要包括第二章和第三章中的两个工作:第二章,我们提出了一个基于非利普希茨分解模型的两阶段图像分割方法。目前,对像素不均匀的图像进行多区域分割依然是图像处理中一个比较大
试验是人们了解自然、探索自然规律的重要手段,它在工业、农业、工程及科学的各个领域有着重要的理论意义和应用价值.试验主要分为两类:实体试验与计算机试验.实体试验是在农田、工厂或实验室进行的,通过试验员亲手操作、现场观测来完成,而计算机试验是通过复杂的计算机代码来实现的.试验设计是试验中最关键的环节之一,通过合理地控制变量的取值来实现统计分析中的某些优良性质.本学位论文旨在对试验设计的某些新课题展开研
背景和目标:肺癌是在全球范围内发病率和死亡率最高的癌症,肺腺癌是肺癌最常见的类型。尽管近年在研究和治疗中取得了巨大进步,但是治疗效果仍有待提高。研究表明,肝X受体(liver X receptor,LXR)被其配体T0901317(T317)激活后,能促进干扰素γ(interferonγ,IFNγ)表达,发挥抗肿瘤作用。然而,LXR同时激活脂质合成基因表达,导致肝脏脂质过度合成和积累,造成脂肪肝及
试验在工业、农业、工程和科学等领域无处不在。总的来说,试验大致可以分为两类:实体试验和计算机试验。在实体试验中,科学家进行实验室试验或进行现场观察。由于实体试验中总是存在随机误差,对于相同的输入变量试验人员可能获得不同的输出响应。随机误差的存在会增加数据分析和处理的复杂性。为了解决这个问题,实体试验往往遵循以下三个基本设计原则,即随机化、重复和分区组。当实体试验的成本很高、耗时很长,或者在实际环境