论文部分内容阅读
本文主要考虑复杂数据(右删失长度偏差数据、纵向数据、缺失数据)下基于分位数回归及非光滑估计方程的统计推断和变量选择问题.这些复杂数据都是金融,经济,生物和医学等领域中重要的数据类型,是现代统计学研究的前沿和热点问题之一文章主要分为七章,第一章主要介绍研究背景和研究现状,我们所研究的问题、动机及本文的主要内容.长度偏差数据在流行病队列学研究,疾病筛查实验,以及劳动力经济研究等很多实际应用领域中都会经常遇到,此类数据已经引起了人们的关注.现存的关于右删失长度偏差数据的研究均基于转移模型、比例风险模型及加速时效时间模型,目.均需假设删失变量独立于协变量.本文第二章首次对右删失长度偏差数据建立分位数回归模型,且.在删失变量依赖于协变量情形下用Cox模型对其进行辅助建模.通过构造逆概率加权方程处理长度偏差抽样引起的信息型删失,纠正此种有偏抽样及右删失的影响,并利用现代经典统计方法经验过程理论及半参数方法导出分位数回归估计的渐近性质.此分位数回归估计的方差可由较为简单的重抽样方法得到.数值模拟及美国Channing house数据集分析结果均可说明所提出方法表现不俗.当各风险因素对响应变量的影响随着某个量如时间空间等发生变化,或者人们对风险暴露因素的动态影响及风险因素之间交互作用更感兴趣时,就需要进一步扩展第二章建立的常系数分位数回归模型.在第三章提出了右删失长度偏差数据下的变系数分位数回归模型,通过对删失变量建立Cox模型考虑其依赖于协变量情形,提出该数据下的复合分位数回归提高单个分位数回归估计效率.对函数系数进行局部线性拟合,并基于所构造的构造局部逆概率加权估计方程和局部逆概率复合加权估计方程,从而得到了函数系数的局部线性分位数回归估计以及局部线性复合分位数回归估计,并推导出了它们的渐近性质.蒙特卡洛模拟中考察了所得局部线性估计的小样本性质.实例分析说明了所提出方法的实用性.第四章用条件矩限制模型对右删失长度偏差数据进行建模,该模型涵盖了条件均值回归及条件分位数回归等多种许多模型,是更为宽泛和一般的建模技术.基于建立的条件矩限制模型构造逆概率加权估计方程,并在广义矩方法框架下对其进行统计推断.值得注意的是本章可同时考虑非光滑和光滑的条件矩限制模型.本章导出了兴趣广义矩估计的相合性和渐近正态性.并且通过数值模拟考察了所提出方法的小样本表现.纵向数据在医疗跟踪研究和经济研究中一类常见的数据.对纵向数据分析,人们常常应用条件均值回归和条件分位数回归模型进行拟合.现存的方法大多集中于观测过程完全独立,或者给定协变量的情况下条件独立于响应变量,同时也经常假设纵向观察是等时间间距的情形.但现实中很多纵向数据是不等距,观察时间点甚至是随机的.在第五章,我们对随机观测的纵向数据建立了条件分位数回归模型,同时基于计数过程理论建立了随机观察次数的变化率模型.通过构造非光滑估计方程,得到了条件分位数回归估计,并且推导了其渐近性质.通常一种简单的重抽样方法来估计渐近方差.模拟实验考查了所得估计的小样本性质,结果表明所提出的方法表现良好,最后,把所提出方法分析应用到膀胱癌数据分析中.第六章中,采用SCAD和自适应LASSO惩罚函数考虑了第五章中提出信息型随机观测次数纵向数据的分位数回归模型的变量选择问题.基于惩罚分位数回归估计方程导出了惩罚分位数回归估计的oracle性质.另外,提出了复合分位数回归方法提高参数估计的有效性,且通过构造复合惩罚分位数回归估计方程来考虑纵向数据的变量选择问题,同时获得了相应的惩罚复合分位数回归估计的的oracle性质.众所周知,当数据存在缺失的时候,直接插补缺失观测可能会导致估计方程有偏,违背了估计方程统计诊断的一个基本假设.最近Zhou, Wan&Wang[1]提出了另外一种基于核的整体插补方法,其插补的目标是估计函数而非缺失数据本身,并且基于经验似然和广义矩估计方法导出了参数估计的渐近性质.但人们的方法需要假设估计方程是光滑的,这个假设将很多很重要的统计应用领域排除在外.因此,本文第七章的主要目标就是将Zhou, Wan&Wang[1]推广到非光滑估计方程的情形下.当估计方程非光滑时,泰勒展式无法应用,这就要求提出另外一套完全不同的证明技巧.另外,为了得到渐近方差的估计,本章提出了两种重抽样方法.模拟研究和实例分析表明了所提出的方法在小样本下工作的很好.因此,提出的方法可以应用于分位数回归和秩回归,ROC曲线估计以及分布函数估计等领域.