区间删失失效时间数据的半参数分析

来源 :吉林大学 | 被引量 : 0次 | 上传用户：yuyisea

【摘要】

：

【作者】

：

杜明月

【机构】

：

吉林大学

【出处】

：

吉林大学

【发表日期】

：

2020年01期

【关键词】

：

相依删失 Ⅰ型区间删失数据 Ⅱ型区间删失数据病例队列研究 Probit模型加性风险模型 Copula模型 frailty模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

区间删失失效时间数据广泛存在于人口学、医学、社会学、肿瘤实验等科学研究领域中（Sun,2006）.区间删失数据是指感兴趣的失效时间T不能被精确观测到,而是只能观测到其落在某时间区间里.区间删失数据主要有Ⅰ型区间删失数据,Ⅱ型区间删失数据和K型区间删失数据.在本文我们主要研究Ⅰ型区间删失数据和Ⅱ型区间删失数据.其中,Ⅰ型区间删失数据也被称为现状数据.在这种情况下,每个个体只被测量一次,感兴趣事件的发生时间大于观测时间或者小于等于观测时间.Ⅱ型区间删失数据是指实验中的每个个体被观测两次,感兴趣的事件可能出现在第一次观测之前,两次观测之间,或者第二次观测之后.对于Ⅰ型区间删失数据,许多学者已研究了对其的回归分析.比如,Jewell et al.（2003）,Sun（2006）,Lin et al.（1998）和 Liu and Qin（2018）等人,他们均假设删失时间和失效时间是条件独立的.在实践中,失效时间与删失时间存在相关关系的情况也是很常见的.当删失时间与失效时间具有相关性时,我们称这种数据为相依Ⅰ型区间删失数据.Zhang et al.（2005）,Zhao et al.（2015）和Ma et al.（2015）分别考虑了加性风险模型和比例风险模型下对相依Ⅰ型区间删失失效时间数据的半参数分析.针对失效时间数据的回归分析,Probit模型因正态分布的优势和其部分线性的形式引起了关注.Lin and Wang（2010）,Liu and Qin（2018）考虑了半参数Probit模型,均基于删失时间和失效时间是独立的假设.接下来,我们将考虑Probit模型及其推广模型下对相依Ⅰ型区间删失失效时间数据的半参数分析.考虑一个具有n个独立个体的失效时间研究,其中每个个体仅被观测一次.对于个体i,我们记Ti为感兴趣的失效时间,Ci为观测时间,Zi是p维的协变量,i=1,…,n.假设Ti与Ci存在相关关系,并假设存在另一个观测时间或者删失时间ξi作为停止时间,其与Ti和Ci均独立.定义Ci=min{Ci,ξi},Δi=I（Ci≤ξi）和δi=I（Ti≤Ci）.那么,我们得到相依Ⅰ型区间删失数据,其形式如下:（?）Probit模型假定在给定Zi的条件下,Ti满足（?）（1）误差项εi与Zi独立并服从标准正态分布.对于观测时间Ci,我们假设它边际服从比例风险模型（?）（2）虽然Probit模型很有用,但有时我们需要考虑更加普遍和适用性更强的模型.为此,接下来,我们除了考虑εi服从标准正态分布外,还考虑它服从威布尔类型分布,形式如下（?）（3）其中d,e和f是一些满足d≥0,e ≥ 0和f≥0的常数.在这种情况下,我们把模型（1）叫做广义的Probit模型.接下来,我们将讨论模型（1）和（2）中回归系数估计问题.针对这个问题,我们提出了 Sieve极大似然估计过程.在估计过程中,我们利用Copula函数来刻画失效时间和删失时间之间的相关性,并假设Copula函数,关联参数α以及误差项ε的分布是已知的.在第二章中我们将对此假设给出更多说明.似然函数具有如下形式:（?）对于似然函数L（θ）的极大化,由于似然函数涉及a（t）和ΛC（c）,直接极大化似然函数是困难的.为了解决这个问题,我们利用I样条函数近似a（t）和ΛC（c）.记θn=（βn,γn,an,Λn）为θ=（β,γ,a,ΛC）的极大似然估计.在正则条件下,θn具有相合性,βn和γn具有渐近正态性.其次,我们讨论在病例队列研究中比例风险模型下对相依Ⅱ型区间删失失效时间数据的半参数分析.病例队列设计经常被用来作为一种降低成本的方式,尤其当疾病发病率比较低和协变量测量比较昂贵时.虽然许多学者已研究了病例队列研究的回归分析,但是许多现存的方法都是针对右删失数据,并不能用于处理区间删失数据.而且,有时感兴趣事件的失效时间和删失机制之间是相关的,如果我们忽略它们之间的相关性,回归分析会得到有偏的或者具有误导性的结果或结论.接下来,我们将考虑如何处理在病例队列研究中比例风险模型下失效时间和删失机制相关的情况.考虑一个具有n个独立个体的失效时间研究.对于个体i,记Ti为失效时间,Zi是p维的协变量向量,i=1,…,n.假设存在两个观测时间Ui和Vi并且满足Ui≤Vi.我们仅观测到Δ1i=I（Ti≤Ui）和（?）,分别表示失效时间Ti是左删失和区间内删失.我们仅得到区间删失失效时间数据.对于病例队列研究,仅可以得到经历过失效事件的个体或者来自子队列的个体的协变量信息,其中子队列即整个队列的一个随机样本.如果协变量Zi可被观测到,则ξi=1,否则ξi=0,i=1,…,n.通过Zhou et al.（2017）和其他人,对于子队列的选择,我们将考虑选择概率为q∈（0,1）的独立伯努利抽样.观测数据有如下形式:为了描述协变量效应和相依区间删失,定义Wi=Vi-Ui,i=1,…,n.通过Ma et al.（2016）,我们将着重于用Ti和Wi的相关关系来刻画相依删失.对于协变量效应,我们假设存在一个具有均值为1且分布已知但方差η未知的潜变量bi,在给定Zi和bi的情况下,Ti和Wi的风险函数分别具有以下形式:（?）（4）和（?）（5）并假设给定Zi和bi时,Ti和Wi是独立的.定义（?）,其中（?）和（?）（?）.对于θ的估计,逆概率加权对数似然函数为（?）（6）其中（?）表示bi的密度函数,pi为（?）其中,（?）和（?）将在第三章给出.若f是伽玛分布,我们可得到函数lOξ（θ）的具体形式.接下来,我们将讨论逆概率加权对数似然函数lOξ（θ）的极大化问题.因为函数中包含着未知函数Λt（t）和Λw（t）,直接极大化函数lOξ（θ）是困难的.为了解决这个问题,通过Ma et al.（2015）,Zhou et al.（2017）和其他人,我们提出利用Bernstein多项式近似这两个未知的函数.在第三章的数值研究中,我们将利用matlab中的fmicon函数得到θn的估计量.下面我们讨论估计量的渐近性质.记（?）为θ的估计量,（?）表示θ的真值.定理1 假定第三章中的正则条件（A1）-（A4）成立.那么当 n →∞时,我们有（?）并且（?）,其中m=o（nv）,v∈（0,1）,r定义在正则条件（A3）中.定理2 假定第三章中的正则条件（A1）-（A5）成立.那么当n →∞并且如果v>1/2r时,那么我们有（?）其中（?）对于（?）和（?）表示基于完全队列数据的（?）的信息矩阵和有效得分.对于vn=（βtn,βwn,ηn）的协方差阵,由于很难得出其相合估计量,我们采用Ma and Kosorok（2005）讨论的加权自助法过程.通过Ma and Kosorok（2005）,可以证明加权自助方差估计量是相合的.最后,我们考虑在病例队列研究中,加性风险模型下对Ⅱ型区间删失失效时间数据的半参数分析.在病例队列研究中,许多学者研究了在加性风险模型下的回归分析,但是现存的所有方法均假设或仅适用于右删失数据.所以接下来我们将讨论加性风险模型下,对Ⅱ型区间删失失效时间数据的半参数分析.考虑一个具有n个独立个体的队列研究.对每个个体i,记Ti为感兴趣的失效时间,Zi是与Ti相关的p维协变量向量.对于Ti和Zi的关系,我们假设给定Zi时,Ti的风险函数具有以下形式:（?）（7）即Ti服从加性风险模型（Lin et al.,1998）.对于个体i,我们假设存在两个观测时间Ui和Vi,且满足Ui<Vi.定义示性函数δ1i=I（Ti≤Ui）,δ2i=I（Ui<Ti≤Vi）和δ3i=1-δ1i-δ2i.在病例队列研究中,仅可获得子队列中的个体或者经历过感兴趣的失效事件的个体的协变量信息.如果协变量Zi知或者被观测到,则定义ξi=1,否则,ξi=0,i=1,…,n.那么在病例队列设计下,观测数据形式如下:#12对于子队列的选择,通过Zhou et al.（2017）,我们将考虑成功概率为q ∈（0,1）的伯努利抽样上.那么,协变量Zi被观测到的概率为#12i=1,…,n.我们假设给定Zi时,Ti独立于观测过程或者观测时间Ui和Vi.即我们有独立删失机制（Sun,2006）.在第四章,针对回归参数β,我们提出了基于估计方程和基于伪似然的估计方法.通过Zhou et al.（2017）和Wang et al.（2010）,我们得到逆概率加权估计方程UIPW.并且定义UIPW（β）=0的解βIPW为β的逆概率加权估计量.接下来的定理确定了βIPW的渐近性质.定理3 假定第四章中的正则条件（A1）-（A4）成立,那么βIPW是相合的,并且 n →∞时,我们有（?）依分布成立.其中Ωw=B1+B2和（?）（?）（?）（?）（?）（?）k=0,1,2.为了对回归系数进行统计推断,我们需要估计βIPW的协方差矩阵.通过Ma and Kosorok（2005）,我们采用非参加权自助过程对其进行估计.对于基于估计方程的估计方法,需要注意的是此方法并不涉及基线累积风险函数Λ（t）的估计,因此,此方法会相对稳定或者稳健.另一方面,它可能会丢失一些效率.与此相对应,我们将提出基于伪似然的方法.在基于伪似然函数的估计过程中,我们必须同时处理β和基线累积风险函数A（t）的估计,这是困难的.针对这个问题,根据Ma et al.（2015）和其他人,我们利用Bernstein多项式近似A（t）,在第四章中我们将给出更多细节.我们定义θ=（βn,Λn）的伪极大似然估计θn=（βn,Λn）为极大化伪对数似然函数得到的θ值.对于确定θn,我们使用Matlab中fmincon给出的内点算法.对于βn的协方差矩阵,我们提出运用Ma and Kosorok（2005）的加权自助法过程.以下定理确定了θn的渐近性质.定理4 假定第四章中的正则条件（A1）,（A3）-（A6）成立.那么n→∞时,我们几乎必然有（?）,并且（?）,其中v∈（0,1）使得m=o（nv）,r被定义在正则条件（A5）中.定理5 假定第四章中的正则条件（A1）,（A3）-（A6）成立并且正则条件（A5）中r>2.那么如果v>1/（2r）和n→∞时,我们有（?）依分布成立,（?）其中,对向量（?）和（?）分别是基于单个观测下β的信息矩阵和有效得分.

其他文献

两类连续抛物Anderson模型的精确几乎必然渐近

在本文中,我们考虑了下列两类连续抛物Anderson模型.首先,我们研究了由时间独立Gauss场V（x）驱动的抛物Anderson模型（?）其中参数0 ∈ R\{0},V（x）为Rd上的中心化广义Gauss场,即{;φ ∈S（Rd）}为中心化Gauss随机变量簇,且具有协方差（?）在上式中,k（x,y）是Rd × Rd上的一个正定核.对于Gauss场V的协方差k（x,y）,我们分别考虑如

学位

抛物Anderson模型大偏差Feynman-Kac公式对数相关Gauss场Massive自由场分数白噪声

城市和郊区复杂下垫面湍流通量和热岛强度观测研究

城市和有地形的下垫面均属于复杂下垫面,经典的莫宁-奥布霍夫相似理论在复杂下垫面并不适用,对复杂下垫面开展微气象观测是十分重要的。湍流通量和气温的是微气象观测中的重要要素,它们的特性和过程值得重点关注。针对上述问题,本文开展了如下工作。利用南京和苏州市区观测站处于冠层之上粗糙子层当中的两个高度的观测资料以及郊区南京大学仙林校区SORPES观测站三个高度的观测资料,分析研究了复杂下垫面地气交换湍流通量

学位

复杂下垫面湍流通量热岛强度湍流统计特征观测高度局地代表性

基于特征相似度的图像异常检测研究

异常检测是一个经典的机器学习任务。异常也称为离群点,通常定义为与其他数据具有明显差异的样本。异常检测的目标是学习一个能够从测试数据中分离出异常样本的判别模型。异常样本的出现往往意味着系统中的风险、恶意的操作和有问题的产品等等。为了确保系统工作正常,很多应用都需要排除数据中的异常,因此异常检测任务有着广泛的实际需求。近年来,深度学习领域发展迅速,基于深度卷积神经网络的异常检测方法已经取代了传统的机器

学位

异常检测度量学习最近邻预训练模型

欧盟国家数字税对跨国科技企业的影响 ——基于谷歌公司的案例分析

数字经济已经展现出颠覆传统经济发展模式的趋势。信息和通讯技术的进步、互联网的普及使得跨国科技企业获得了天然的竞争优势,而国际税收体系并没有对数字经济带来的变化做出及时变革。这些企业在获得巨大利润的同时,并未付出与之相对应的税收,各国政府、经济合作与发展组织（OECD）和二十国集团（G20）都在积极推动国际税收改革,试图努力构建更加公平合理的国际税收秩序。欧盟在数字税收方向上积极探索,最先提出了对跨

学位

数字税跨国科技企业数字经济谷歌公司

几类具源项和p（x）-Laplace算子的（伪）抛物方程的研究

本文主要研究了几类具源项和p（x）-Laplace算子的（伪）抛物方程解的性质.主要讨论了非局部源、对数非线性源和变指数源对方程解的存在性和爆破性的影响.本文内容共分为四章.第一章为绪论.我们首先介绍了本文所研究问题的实际背景和国内外相关的研究工作,其次阐述了所要研究的问题和使用的方法.第二章,我们研究具非局部源的p-Laplace方程的初边值问题（?）其中T>0,为RN（N≥ 1）中的有界区域,

学位

源项存在性爆破性非熄灭和熄灭衰减估计

关于一类带迁入的下临界Galton-Watson过程总种群产生数的大中偏差原理的若干结果

概率论是研究随机现象数量规律的数学分支,从出现以来一直广受重视,至今已有几百年的历史。而概率极限理论则是概率论的主要分支之一,也是概率论其它分支和数理统计的重要理论基础。在针对实际问题时,人们往往通过建立数学模型来从各个方面研究问题。Galton-Watson过程就是Galton和Watson在19世纪讨论英国贵族姓氏的继承和消亡问题时建立的一种随机过程模型。自从被建立以来,有许多学者对这个模型进

学位

Galton-Watson过程大偏差原理中偏差原理多类型Galton-Watson过程

甘油三酯和载脂蛋白A1联合检测对急性胰腺炎病情严重程度的临床应用价值

目的探讨血清甘油三酯（TG）和载脂蛋白A1（ApoA1）联合检测对急性胰腺炎（AP）患者病情严重程度的临床应用价值。方法回顾性分析2019年10月-2021年8月陕西省人民医院收治的132例AP患者的临床资料。根据患者的病情严重程度分为轻症组86例与非轻症组46例。比较两组患者一般临床资料和生化指标。根据患者血清TG水平将血清TG<1.70 mmol/L的患者55例设为TG正常组，血清TG≥1

期刊

急性胰腺炎甘油三酯载脂蛋白联合检测

一类整数值时间序列和纵向数据的建模及统计推断

本文研究了相依变量驱动的整数值时间序列和纵向数据模型的统计分析和建模问题.首先,为了刻画整数值时间序列,基于二项稀疏算子和泊松新息序列,我们提出一个随机系数被相依变量驱动的整数值自回归过程,即PoDDRCINAR（p）过程,研究了该过程的概率性质和严平稳遍历性.同时,应用条件最小二乘估计和条件极大似然估计方法给出了参数估计,并且讨论了估计量的极限性质,通过数值模拟比较了这两种估计方法的优劣,得到条

学位

DDRCINAR（p）过程整数值时间序列累积分位函数医疗费用数据纵向分位回归

若干整数值自回归过程的建模与统计推断

本文主要研究了几类整数值自回归（integer-valued autoregressive,INAR）过程的建模和统计推断.首先,为了刻画取值没有上限的整数值时间序列数据偏大离差和偏小离差的特点,本文基于一个离散分布提出了新的稀疏算子和整数值自回归模型.我们研究了模型存在严平稳遍历解的条件,同时解决了模型的参数估计问题.其次,为了刻画取值有上限的整数值时间序列数据零堆积、二项偏大离差、二项偏小离差

学位

整数值时间序列稀疏算子INAR（1）模型BAR（1）模型参数估计

早产儿坏死性小肠结肠炎影响因素分析及发病预测模型的构建

目的:分析早产儿坏死性小肠结肠炎（necrotizing enterocolitis,NEC）的影响因素及生后24内血常规参数等临床资料,构建一个客观、简单、有意义的评分表用于早期预测NEC的发生。方法:选取2011年1月1日至2020年12月31日吉林大学白求恩第一医院新生儿科病房收治的根据修正Bell分期为Ⅱ期及III期的NEC早产儿作为病例组（n=298）。按照1:1选取与病例组胎龄（ges

学位

坏死性小肠结肠炎预测影响因素早产儿风险评分

区间删失失效时间数据的半参数分析

与本文相关的学术论文