论文部分内容阅读
本文主要研究了在复杂数据(左截断和右删失数据、长度偏差和右删失数据)下,剩余寿命的统计推断和应用的问题.剩余寿命指个体活过t时间后还能存活的时间,广泛应用于很多领域,如医学的寿命试验,工程中的耐久性试验和可靠性研究,金融领域的风险研究,保险公司的保费制定研究,以及社会学中失业时间的研究等.剩余寿命直观易解释,应用广泛,也是当今统计研究的热点,因此,对该问题进行研究在理论和实践中都意义重大.本文主要分为四章,第一章介绍剩余寿命问题的背景、研究现状和本文研究的动机、主要内容和创新之处.第二章到第四章分别基于不同的复杂数据结构构建剩余寿命模型进行研究,提出了相应的估计方法并给出估计的渐近性质,以及应用于实际数据进行分析. 在统计研究中,收集和分析数据是非常重要的首要步骤,因为不同的数据结构会影响统计模型的建立和统计方法的合理使用.而且随着科技在社会各领域的不断发展,完全可观测的独立同分布数据即“简单数据”往往在试验中很难获得,实际观测到的数据也越来越复杂,复杂的数据结构会影响到剩余寿命模型的建立,因此就需要对复杂的数据结构进行深入分析,根据不同的数据特点来建立合适的统计模型,并研究相应的方法进行统计推断. 常见的复杂数据有很多种,本文在第二章中主要对左截断和右删失数据下的剩余寿命分位数模型进行研究.左截断数据是指只有满足一定条件的个体才能进入试验样本的一类数据,例如在寿命研究中,左截断变量为从初始事件发生(如:发病)到试验开始的时间段;右删失数据是生存分析中另一种常见的数据类型,由于试验时间有限,有些观测样本在试验结束时还未发生失效,或者试验过程中提前离开试验或因别的原因而失效,这样我们仅知个体在该时间段内存活过而不知其具体失效时间的数据称为右删失数据.在实际抽样中,往往同时具备以上两种数据类型,因此数据分析时需要对这两种数据综合考虑.第二章中,我们在左截断和右删失数据下用估计方程的方法研究了剩余寿命分位数的非参数估计.通过剩余寿命分位数的定义构建估计方程,进而解估计方程得到剩余寿命分位数的估计,并证明了其大样本性质.在计算估计方差时,我们采用了两种重抽样的方法:一种是经典的bootstrap方法,另一种是改进的bootstrap法,后者的计算速度是前者的至少4000倍,模拟结果表明我们的估计方法能得到很好的估计结果,并展示了如果忽略左截断信息,则会造成有偏估计.最后,我们用该方法分析美国Channing House数据,对其中老年人的剩余寿命分位数进行研究,并得到合理的结果. 除了左截断和右删失数据在抽样中很常见,由于流行队列抽样法的普遍使用,另一种特殊的左截断数据,即长度偏差数据,也非常常见.长度偏差数据是指抽样中,个体被观测到进入样本的概率与其长度成正比的一类数据,该类数据并非从总体中等概率随机抽取,因此是一类有偏数据.其特殊性就在于此类数据满足“平稳条件”,即事件的发生过程是一个平稳的泊松过程,从而截断变量服从均匀分布,并表现为个体被观测到的概率与其长度成正比.而右删失机制将进一步增加长度偏差数据的复杂度.在长度偏差和右删失数据中,由于失效变量和删失变量具有共同的部分,即截断变量,因此该情况下的删失是有信息删失,很多经典的统计方法如Kaplan-Meier估计等将失效.因此,在对长度偏差数据研究时,应考虑到有信息删失和截断变量服从均匀分布的信息,从而得到合理的估计并提高估计的有效性.在本文第三章中,我们对长度偏差和右删失数据下的剩余寿命分位数问题进行了研究.我们首先将第二章的方法推广到长度偏差和右删失数据下的剩余寿命分位数模型中,但这里需要把长度偏差数据下截断变量的辅助信息加入考虑,因此我们首先基于剩余寿命分位数的定义构建估计方程,提出不含协变量的非参数估计方法,并在估计中考虑截断变量和进入试验后的剩余存活时间同分布的辅助信息,来提高估计的效率.接着,进一步考虑协变量的影响,在假设总体生存分布服从Cox比例风险模型下提出新的统计方法,用复合部分似然法来对回归参数进行估计,进而得到剩余寿命分位数的估计.在此基础上,又进一步研究了两样本比较的问题,提出相应的统计量.模拟结果显示我们的方法能得到很好的结果.最后,我们用提出的估计方法研究美国老年痴呆数据,对几种不同情况下的老年痴呆患者的剩余寿命分位数进行估计,并进一步考虑性别的影响,分别研究观测中男性和女性患者群体的剩余寿命,并得到合理的结果. 均值剩余寿命模型也是实际研究中常用的一种模型,在平均的水平上给出总体的剩余寿命值,意义直观易解释,因此本文第四章在长度偏差数据下,对成比例的均值剩余寿命模型进行了研究.该章考虑实际抽样中常常同时收集到事件队列抽样数据和流行队列抽样数据,而文献中通常分别基于两队列数据进行研究,但实际中舍弃任何一组数据都会造成估计效率的大大下降.因此该章在成比例的均值剩余寿命模型下,同时利用事件队列和流行队列中协变量的信息对协变量效应进行估计,通过把三种不同的方法结合来构造估计方程,进而用广义矩估计方法(GMM)得到协变量效应的估计及统计大样本性质.模拟结果显示,我们提出的估计方法与单独使用各种方法相比,确实能显著提高估计的效率,而且应用于美国老年痴呆数据中也得到合理的结果.