生存分析中复杂数据下半参数模型推断及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yjzjh225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要考虑生存分析中复杂数据下半参数模型推断以及应用。这里所说的复杂数据主要是指右删失数据、长度偏差右删失数据以及复发数据。这几种复杂数据都是实际应用中经常会遇到的,研究它们不仅有重要的理论意义和价值,而且有很广泛的应用前景。我们在第一章中简要地介绍此研究的数据类型和模型,以及我们的创新点。其余文章主要分三大部分。首先研究右删失数据下的两样本问题,其次探讨长度偏差右删失数据下的剩余寿命模型,最后使用自激励过程动态的模拟复发事件数据。   第一部分是研究右删失数据下的两样本问题,主要在第二章和第三章中。   首先在两样本问题中研究具有重要应用的ROC曲线的估计问题。ROC曲线广泛应用在医学、信号检测、材料学、心理学等等。从它的定义可以看出,ROC曲线的估计主要基于分布函数的估计。在删失数据下,自然的可以用Kaplan-Meier估计得到ROC曲线的估计,类似完全数据的经验分布估计,它是非光滑的,在实际应用中,数据集中出现分布的尾部时或数据过度删失时,非光滑估计可能精度不足。为了克服非光滑估计的缺陷,使用核技巧得到ROC曲线的光滑估计,并以均方误差为标准在亏量的意义下证明了删失数据下核光滑的估计好于非光滑估计。最终,数值模拟和实例分析也验证了我们的结论。详见第二章。   其次研究删失数据下两样本问题中治疗效果的估计,并进行半参数统计推断。在生存分析中,删失数据下两样本问题中治疗效果的估计非常重要,受到了很多学者的关注。处理删失的常用方法是逆概率权方法。但是,这种方法仅仅使用了未删失数据上的信息,这样就可能造成估计有效性的损失。在第三章中提出一种统一的半参数估计方程方法估计删失数据下各种各样的治疗效果,如:两个总体之间的均值差,两个生存函数在给定点的差异,一个总体的生存时间大于另一个总体的生存时间的概率,以及均值剩余时间的差异,等等。所提供的方法使用所有可以利用的数据,因此和现存的方法比起来能够提高有效性。推导了所提出估计的理论性质并得到它的方差的相合估计。数据模拟显示我们的方法在有限样本下好于现存的方法。最后用所提出的方法分析了一个实例数据。详见第三章。   第二部分是考虑长度偏差数据下的剩余寿命模型:均值剩余寿命模型和分位数剩余寿命模型等半参数模型。   长度偏差数据经常出现在观测性的研究中,如癌症的筛查实验,劳动力经济学,野生动植物学,基因研究等等。这类数据的特点是长度越长,观测到数据的概率就越大。也就是说我们得到的样本并不是来自总体的独立同分布的随机样本,其中长度过长的样本过分的代表了样本总体。如果简单地忽略数据的偏差将会产生很大的估计误差。在处理长度偏差数据时,经常会遇到两个挑战,一个是信息删失,这是因为失效时间和删失时间由于有共同因子它们是相依的,一个是观测数据的模型结构通常会发生变化。因此,对于长度偏差数据需要进行特别的研究。   剩余寿命衡量的是存活到一固定时刻的个体的剩余寿命。剩余寿命应用非常广泛,在工业可靠性研究中,被用来权衡零部件的修理和替换;在人口统计学中,被用作死亡率的总结性指标;在保险精算学中,被用来计算剩余寿命。然而,在生物医学,特别是临床试验中,所观察到的数据通常是长度偏差及删失同时显现的数据,因此,在此类的数据下剩余寿命需要克服数据中的观察偏差和删失的影响,提出可行甚至有效的方法是很有必要的。   本文第二部分中我们主要研究长度偏差数据下如何估计协变量对剩余寿命的影响。   首先研究长度偏差右删失数据下的比例均值剩余寿命模型。比例模型是均值剩余寿命模型中很基本的一个模型,协变量的效果很直观,易于解释。使用逆概率权重的方法提出均值剩余寿命的估计方法,同时所提出的方法可以方便处理协变量对剩余寿命的影响,利用估计方程的理论获得了估计的相应大样本性质。然后在有效估计的框架下,给出了一类更有效的估计。除此之外还证明了最有效估计是双稳健的。最后通过数值模拟和实例分析说明该方法的具体表现。详见第四章。   当数据是厚尾或存在着异常点时,均值剩余寿命函数可能就不存在,所以这样情况下研究均值剩余寿命模型是不合理的。知道分位数可以对随机变量提供完全的刻画,同时,对于厚尾的生存分布也具有稳健性,因此研究长度偏差数据下的分位数剩余寿命模型,它比均值剩余寿命估计更加稳健和合理。考虑一个广义的模型,然后通过构造无偏的估计方程组得到协变量效果的估计。非光滑的估计方程使得估计变得十分困难,采用MM算术解决这个问题。另一个难点是方差的估计,因为方差项中涉及了未知的密度函数,文中使用一种创新的重抽样方法计算方差。最后应用该方法到数值模拟和实际数据中。详见第五章。   第三部分研究复发事件数据下的自激励过程,并对其进行半参数推断。复发事件数据是一类很重要但结构很复杂的数据类型,对于某一个观测而言,事件的复发时间是有次序的并且是相依的。合适的模拟它的动态过程非常重要。而自激励过程,它的强度函数依赖于历史事件,从而可以很好地刻画复发事件数据。研究自激励过程的半参数问题,其中激励效果函数是完全未知的,仅仅假设是单调下降的和光滑的,即它是一个非参的成分,这样得到的模型就有很大的稳健性,也更加的合理。基于单调的B样条得到相应的估计,并得到大样本性质。最后应用我们的方法到数值模拟和实例分析,结果和我们的理论是吻合的。详见第六章。
其他文献
高中语文课堂教学的开放性也就是开放语文课堂教学,引领学生自己发现知识的规律,掌握学习语文的方法,品味欣赏生活中的美;开放语文课堂教学方法,其课堂教学要朝着现实化、电
现有的结构方程模型(SEM)统计软件--如LISREL、EQS6、Mplus、WinBUGS和AMOS等都是假设指标(又称观测变量、显变量)服从连续多元正态分布而得到的,然而在实际调查问卷中要使得
改革开放以来,我国从社会主义计划经济向市场经济转变,在此基础上愈来愈多的事业单位走上了产业化发展的道路,并且在产业化的发展道路上找到了更好的出路。传媒就是随着市场
该文的工作主要四个方面:一、奇异椭圆方程的研究;二、非线性项在零点次线性增长或负指数增长,且系数是负或变号函数的椭圆方程(包括临界Sobolev指数的情形)的正解 、多解的
本刊讯首批11家试点媒体社会责任报告近日正式对外发布,对2013年度本媒体履行社会责任情况进行了全面梳理展示。各媒体重点报告了履行正确引导责任、提供服务责任、人文关怀
学前教育专业的教学在新教学改革环境下,提出了新的教学要求,其中在对学前教育专业学生的普通话水平方面进行加强提高就比较重要,这是培养幼儿普通话基础的重要保障.基于此,
本文主要是在三角多项空间和混合三角多项式空间,找到新的基函数,介绍了两类有理曲线曲面构造方法及性质,研究了CAGD中平面曲线曲面插值逼近问题,以及另一种曲线的保形插值及
世界著名心理学家特瑞赤拉提出:人们通过听觉和视觉获得的信息是他获得所有信息的94%.他在说明人类的记忆与感官之间的的关系时指出,人们一般可以记住自己阅读的10%,自己听到
在现代广告的表现形式上,中国传统文化与现代广告艺术完美的有机结合在一起。水墨丹青,“计白当黑”:书法篆刻,苍劲有力。千百年来中国的传统艺术以其独特的艺术魅力一次次地