复杂数据结构下分位数回归的模型检验

来源 :南开大学 | 被引量 : 0次 | 上传用户:liuyuanshuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能和通信技术的快速发展,我们在工业生产、生物医学及现代计量经济学等诸多领域都会遇到各种各样复杂且高维的数据.为了挖掘潜藏在数据背后的信息,比如研究某些因素对我们感兴趣变量的影响,我们常常会借助各种回归模型建立起相关因素之间的桥梁,然后基于假定的模型去做相应的统计推断.为了便于解释相关模型的分析结果,所假定的模型需要尽量简单,这往往需要大量先验知识的参与.如果人们怀疑最初假定的模型,抑或是原始的模型假定本身就是错误的,那么基于这样的模型得出的统计推断结果往往很难令人信服,所以有必要在做深入的统计推断前先对假定的现有模型做出合理的检验.参数分位数回归模型常用于给定协变量X后估计响应变量Y的条件分位数.与经典的均值回归模型相比,分位数回归对误差的分布要求较弱,并能在不同的分位数水平下提供响应的条件分布信息,这极大地加深了对数据的理解程度,从而促使了分位数模型的广泛应用.目前,已有大量文献研究了均值回归下的模型检验问题.然而,很难将这些方法直接扩展到分位数回归模型.因为在分位回归框架下,将不再是基于模型的残差构建相应的检验统计量,而是基于分位回归损失函数的次梯度函数做相应的检验.后面的理论分析将会看到,因这一点改变所带来的分析上的困难.同时,研究如何在高维数据下增强检验的功效,减少高维数据稀疏性对检验带来的负面影响也非常具有实用价值.此外,很少有学者研究缺失数据下高维分位数回归模型的检验问题.本文将针对这些问题展开相关研究.下面简要介绍本论文各部分的主要内容.本论文的第一章是引言,包括一些背景知识.首先,我们简要回顾了模型检验的一般方法,介绍了完全观测数据及响应变量随机缺失下分位数回归模型检验的研究现状.然后介绍了分位回归模型及其相关的系数估计方法.最后,考虑到充分降维方法对本文所提检验方法的重要性,我们介绍了几种易于使用的模型降维方法.特别地,对响应变量随机缺失时的完全情形辅助恢复(complete case assisted recovery,CCAR)方法进行了详细地介绍.本论文的第二章基于核光滑方法构建了用于参数单指标分位数回归的模型检验方法.为解决多元非参数估计中的维数灾难问题,充分利用模型所携带的降维信息,我们采用适用于分位数模型的充分降维技术来识别相应的降维子空间,并在该子空间中构造检验统计量.用这种方法构造的检验统计量类似于只包含一维协变量的局部光滑方法.在不同的分位数水平下,所提检验对全局备择假设是相合的,并能以较快的速度检测出不同于原模型的局部备择模型,而现有的局部光滑方法只有在协变量是单变量时才能实现.采用wild bootstrap方法近似检验的临界值,通过数值模拟和实际数据应用验证了所提方法的有效性.本论文的第三章研究了响应变量随机缺失时参数单指标分位回归模型的模型检验问题.采用缺失数据下的分位回归系数估计方法对模型中的系数进行估计.同时针对响应变量随机缺失的多维分位回归模型,提出了计算中心分位子空间的算法.基于中心分位回归子空间,构造了两个适用于响应变量随机缺失的模型自适应检验统计量,从而避免了维数灾难问题.在原假设和局部备择假设下,得到了检验统计量的渐近性质.结果表明,所提方法是相合的,并且能够检测到以Θ(n-1/2h-1/4)(Θ为表示同阶收敛速度的符号)的速度接近原模型的局部备择模型.借助wild bootstrap对检验的临界值进行校准,并给出了其渐近性质.随机模拟表明,在多维甚至高维协变量的情况下,所提方法在保持检验的水平和功效方面均优于现有的方法.对ACTG Protocol 175数据集进行分析,展示了检验方法的应用.在最后一部分,对本文的研究成果和结论进行了总结,并指出了今后的研究方向.本文关注参数单指标分位回归模型的模型检验问题,主要创新点如下:第一,在完全观测样本下,结合数据自身携带的降维结构,构建了能够自动适应不同模型的检验统计量,避免了高维数据中因局部光滑带来的维数灾难问题.同时,得出了所提检验统计量的极限零分布,并能快速检测出与原假设不同的局部备择假设.第二,当响应变量随机缺失时,给出了计算中心分位子空间的算法,研究了其大样本性质.基于缺失数据下的中心分位子空间,构建了两个适用于响应随机缺失的模型检验统计量,得到了它们在不同假设下的极限分布.第三,不同于均值回归背景下的模型检验方法,当观测数据中包含异常值或误差项不满足同分布假设时,本文中的检验统计量在检验的水平和功效方面仍具有良好的性能,随机模拟也验证了所提方法的稳健性.
其他文献
近些年,图的连通染色得到了蓬勃的发展。图的连通染色是研究在边染色情况下图的连通性问题,例如:彩虹连通染色,正常连通染色,单色连通染色和无冲突染色。我们知道,研究一个图的边连通性有两种方式,一种是通过路来研究,而另外一种是通过边割研究。上述四类连通染色均是通过路来研究边染色图的边连通性。Chartrand等人于2018年提出了彩虹不连通染色的概念,彩虹不连通染色是通过彩虹边割来研究一个图的彩虹连通性
动脉粥样硬化是一种慢性炎症性疾病,涉及多种细胞的变化,包括平滑肌细胞异常增殖和迁移、巨噬细胞浸润并吞噬脂质成分以及细胞外基质堆积等。Nogo-B已被证实具有多种病理生理功能,如抑制平滑肌细胞增殖迁移、促进巨噬细胞黏附和炎症反应等。然而,我们并不清楚Nogo-B是否能影响动脉粥样硬化发生发展及斑块稳定性。本论文中,我们发现在动脉粥样硬化患者血浆中Nogo-B水平升高,并与ApoE4水平呈负相关。为了
近年来,来自于微分几何、数学物理等领域中的指数非线性问题越来越受到关注,本文主要考虑指数非线性问题的爆破分析与紧性分析,结合最佳几何不等式,对相关问题进行深入研究.首先,我们利用凸重排技巧以及水平集估计,建立涉及N-Finsler-Laplacian算子和Lp范数扰动的最佳Trudinger–Moser不等式.此外,我们还通过爆破分析和容度技巧得到极值函数的存在性.其次,我们考虑带边黎曼面上的预定
本论文主要关注图像分解问题,提出了两个非利普希茨(non-Lipschitz)下卷积(infimal convolution,IC)分解模型并将其应用到了一些图像处理问题当中,如图像分割、卡通-纹理分解和Retinex问题。我们的贡献主要包括第二章和第三章中的两个工作:第二章,我们提出了一个基于非利普希茨分解模型的两阶段图像分割方法。目前,对像素不均匀的图像进行多区域分割依然是图像处理中一个比较大
试验是人们了解自然、探索自然规律的重要手段,它在工业、农业、工程及科学的各个领域有着重要的理论意义和应用价值.试验主要分为两类:实体试验与计算机试验.实体试验是在农田、工厂或实验室进行的,通过试验员亲手操作、现场观测来完成,而计算机试验是通过复杂的计算机代码来实现的.试验设计是试验中最关键的环节之一,通过合理地控制变量的取值来实现统计分析中的某些优良性质.本学位论文旨在对试验设计的某些新课题展开研
背景和目标:肺癌是在全球范围内发病率和死亡率最高的癌症,肺腺癌是肺癌最常见的类型。尽管近年在研究和治疗中取得了巨大进步,但是治疗效果仍有待提高。研究表明,肝X受体(liver X receptor,LXR)被其配体T0901317(T317)激活后,能促进干扰素γ(interferonγ,IFNγ)表达,发挥抗肿瘤作用。然而,LXR同时激活脂质合成基因表达,导致肝脏脂质过度合成和积累,造成脂肪肝及
试验在工业、农业、工程和科学等领域无处不在。总的来说,试验大致可以分为两类:实体试验和计算机试验。在实体试验中,科学家进行实验室试验或进行现场观察。由于实体试验中总是存在随机误差,对于相同的输入变量试验人员可能获得不同的输出响应。随机误差的存在会增加数据分析和处理的复杂性。为了解决这个问题,实体试验往往遵循以下三个基本设计原则,即随机化、重复和分区组。当实体试验的成本很高、耗时很长,或者在实际环境
缺失数据在工农业生产,药物研发,流行病学,人口普查,民意测验等领域普遍存在.数据缺失会导致获得的样本信息减少,降低模型效率,增加模型复杂度,不利于进行数据分析和统计推断.依据不同的缺失机制,缺失数据被分为完全随机缺失,随机缺失和非随机缺失三种.前两种缺失机制与缺失数据本身无关,一般称为可忽略缺失,而最后一种缺失机制与缺失数据有关,称为不可忽略缺失.在不可忽略缺失数据情形下,参数可识别问题往往给估计
随着经济和社会的飞速发展,飞机对人类的影响越来越突出。现代飞机在商业,民用和军事领域承担着重要的任务;这对飞机的机动性,可靠性和控制精度提出了更高的要求。由于姿态控制系统是飞机的关键部件,并且在飞行稳定性中起着重要作用,因此姿态控制的研究是一项极具挑战性的工作。飞机是一个复杂且高度非线性的系统,但是传统的控制方法无法满足现代飞机的控制精度。为了提高飞机姿态控制的准确性,本文将抗扰控制,滑模控制和反
普通变形杆菌(Proteus vulgaris)为环境和临床中常见的条件致病菌,在特定条件下会引起胃肠感染、尿路交叉感染等疾病。环丙沙星等抗生素广泛用于治疗该类细菌所引发的感染,但也使得耐药细菌大量出现,严重影响临床治疗效果,危及人类生命健康。本实验室前期从南美白对虾肠道中分离得到一株携带有两个内源质粒的变形杆菌(Proteus),后经本研究鉴定为普通变形杆菌。本研究将该普通变形杆菌命名为P3M并