论文部分内容阅读
本文主要考虑生存分析中复杂数据下半参数模型推断以及应用。这里所说的复杂数据主要是指右删失数据、长度偏差右删失数据以及复发数据。这几种复杂数据都是实际应用中经常会遇到的,研究它们不仅有重要的理论意义和价值,而且有很广泛的应用前景。我们在第一章中简要地介绍此研究的数据类型和模型,以及我们的创新点。其余文章主要分三大部分。首先研究右删失数据下的两样本问题,其次探讨长度偏差右删失数据下的剩余寿命模型,最后使用自激励过程动态的模拟复发事件数据。
第一部分是研究右删失数据下的两样本问题,主要在第二章和第三章中。
首先在两样本问题中研究具有重要应用的ROC曲线的估计问题。ROC曲线广泛应用在医学、信号检测、材料学、心理学等等。从它的定义可以看出,ROC曲线的估计主要基于分布函数的估计。在删失数据下,自然的可以用Kaplan-Meier估计得到ROC曲线的估计,类似完全数据的经验分布估计,它是非光滑的,在实际应用中,数据集中出现分布的尾部时或数据过度删失时,非光滑估计可能精度不足。为了克服非光滑估计的缺陷,使用核技巧得到ROC曲线的光滑估计,并以均方误差为标准在亏量的意义下证明了删失数据下核光滑的估计好于非光滑估计。最终,数值模拟和实例分析也验证了我们的结论。详见第二章。
其次研究删失数据下两样本问题中治疗效果的估计,并进行半参数统计推断。在生存分析中,删失数据下两样本问题中治疗效果的估计非常重要,受到了很多学者的关注。处理删失的常用方法是逆概率权方法。但是,这种方法仅仅使用了未删失数据上的信息,这样就可能造成估计有效性的损失。在第三章中提出一种统一的半参数估计方程方法估计删失数据下各种各样的治疗效果,如:两个总体之间的均值差,两个生存函数在给定点的差异,一个总体的生存时间大于另一个总体的生存时间的概率,以及均值剩余时间的差异,等等。所提供的方法使用所有可以利用的数据,因此和现存的方法比起来能够提高有效性。推导了所提出估计的理论性质并得到它的方差的相合估计。数据模拟显示我们的方法在有限样本下好于现存的方法。最后用所提出的方法分析了一个实例数据。详见第三章。
第二部分是考虑长度偏差数据下的剩余寿命模型:均值剩余寿命模型和分位数剩余寿命模型等半参数模型。
长度偏差数据经常出现在观测性的研究中,如癌症的筛查实验,劳动力经济学,野生动植物学,基因研究等等。这类数据的特点是长度越长,观测到数据的概率就越大。也就是说我们得到的样本并不是来自总体的独立同分布的随机样本,其中长度过长的样本过分的代表了样本总体。如果简单地忽略数据的偏差将会产生很大的估计误差。在处理长度偏差数据时,经常会遇到两个挑战,一个是信息删失,这是因为失效时间和删失时间由于有共同因子它们是相依的,一个是观测数据的模型结构通常会发生变化。因此,对于长度偏差数据需要进行特别的研究。
剩余寿命衡量的是存活到一固定时刻的个体的剩余寿命。剩余寿命应用非常广泛,在工业可靠性研究中,被用来权衡零部件的修理和替换;在人口统计学中,被用作死亡率的总结性指标;在保险精算学中,被用来计算剩余寿命。然而,在生物医学,特别是临床试验中,所观察到的数据通常是长度偏差及删失同时显现的数据,因此,在此类的数据下剩余寿命需要克服数据中的观察偏差和删失的影响,提出可行甚至有效的方法是很有必要的。
本文第二部分中我们主要研究长度偏差数据下如何估计协变量对剩余寿命的影响。
首先研究长度偏差右删失数据下的比例均值剩余寿命模型。比例模型是均值剩余寿命模型中很基本的一个模型,协变量的效果很直观,易于解释。使用逆概率权重的方法提出均值剩余寿命的估计方法,同时所提出的方法可以方便处理协变量对剩余寿命的影响,利用估计方程的理论获得了估计的相应大样本性质。然后在有效估计的框架下,给出了一类更有效的估计。除此之外还证明了最有效估计是双稳健的。最后通过数值模拟和实例分析说明该方法的具体表现。详见第四章。
当数据是厚尾或存在着异常点时,均值剩余寿命函数可能就不存在,所以这样情况下研究均值剩余寿命模型是不合理的。知道分位数可以对随机变量提供完全的刻画,同时,对于厚尾的生存分布也具有稳健性,因此研究长度偏差数据下的分位数剩余寿命模型,它比均值剩余寿命估计更加稳健和合理。考虑一个广义的模型,然后通过构造无偏的估计方程组得到协变量效果的估计。非光滑的估计方程使得估计变得十分困难,采用MM算术解决这个问题。另一个难点是方差的估计,因为方差项中涉及了未知的密度函数,文中使用一种创新的重抽样方法计算方差。最后应用该方法到数值模拟和实际数据中。详见第五章。
第三部分研究复发事件数据下的自激励过程,并对其进行半参数推断。复发事件数据是一类很重要但结构很复杂的数据类型,对于某一个观测而言,事件的复发时间是有次序的并且是相依的。合适的模拟它的动态过程非常重要。而自激励过程,它的强度函数依赖于历史事件,从而可以很好地刻画复发事件数据。研究自激励过程的半参数问题,其中激励效果函数是完全未知的,仅仅假设是单调下降的和光滑的,即它是一个非参的成分,这样得到的模型就有很大的稳健性,也更加的合理。基于单调的B样条得到相应的估计,并得到大样本性质。最后应用我们的方法到数值模拟和实例分析,结果和我们的理论是吻合的。详见第六章。