论文部分内容阅读
区间删失失效时间数据广泛存在于人口学、医学、社会学、肿瘤实验等科学研究领域中(Sun,2006).区间删失数据是指感兴趣的失效时间T不能被精确观测到,而是只能观测到其落在某时间区间里.区间删失数据主要有Ⅰ型区间删失数据,Ⅱ型区间删失数据和K型区间删失数据.在本文我们主要研究Ⅰ型区间删失数据和Ⅱ型区间删失数据.其中,Ⅰ型区间删失数据也被称为现状数据.在这种情况下,每个个体只被测量一次,感兴趣事件的发生时间大于观测时间或者小于等于观测时间.Ⅱ型区间删失数据是指实验中的每个个体被观测两次,感兴趣的事件可能出现在第一次观测之前,两次观测之间,或者第二次观测之后.对于Ⅰ型区间删失数据,许多学者已研究了对其的回归分析.比如,Jewell et al.(2003),Sun(2006),Lin et al.(1998)和 Liu and Qin(2018)等人,他们均假设删失时间和失效时间是条件独立的.在实践中,失效时间与删失时间存在相关关系的情况也是很常见的.当删失时间与失效时间具有相关性时,我们称这种数据为相依Ⅰ型区间删失数据.Zhang et al.(2005),Zhao et al.(2015)和Ma et al.(2015)分别考虑了加性风险模型和比例风险模型下对相依Ⅰ型区间删失失效时间数据的半参数分析.针对失效时间数据的回归分析,Probit模型因正态分布的优势和其部分线性的形式引起了关注.Lin and Wang(2010),Liu and Qin(2018)考虑了半参数Probit模型,均基于删失时间和失效时间是独立的假设.接下来,我们将考虑Probit模型及其推广模型下对相依Ⅰ型区间删失失效时间数据的半参数分析.考虑一个具有n个独立个体的失效时间研究,其中每个个体仅被观测一次.对于个体i,我们记Ti为感兴趣的失效时间,Ci为观测时间,Zi是p维的协变量,i=1,…,n.假设Ti与Ci存在相关关系,并假设存在另一个观测时间或者删失时间ξi作为停止时间,其与Ti和Ci均独立.定义Ci=min{Ci,ξi},Δi=I(Ci≤ξi)和δi=I(Ti≤Ci).那么,我们得到相依Ⅰ型区间删失数据,其形式如下:(?)Probit模型假定在给定Zi的条件下,Ti满足(?)(1)误差项εi与Zi独立并服从标准正态分布.对于观测时间Ci,我们假设它边际服从比例风险模型(?)(2)虽然Probit模型很有用,但有时我们需要考虑更加普遍和适用性更强的模型.为此,接下来,我们除了考虑εi服从标准正态分布外,还考虑它服从威布尔类型分布,形式如下(?)(3)其中d,e和f是一些满足d≥0,e ≥ 0和f≥0的常数.在这种情况下,我们把模型(1)叫做广义的Probit模型.接下来,我们将讨论模型(1)和(2)中回归系数估计问题.针对这个问题,我们提出了 Sieve极大似然估计过程.在估计过程中,我们利用Copula函数来刻画失效时间和删失时间之间的相关性,并假设Copula函数,关联参数α以及误差项ε的分布是已知的.在第二章中我们将对此假设给出更多说明.似然函数具有如下形式:(?)对于似然函数L(θ)的极大化,由于似然函数涉及a(t)和ΛC(c),直接极大化似然函数是困难的.为了解决这个问题,我们利用I样条函数近似a(t)和ΛC(c).记θn=(βn,γn,an,Λn)为θ=(β,γ,a,ΛC)的极大似然估计.在正则条件下,θn具有相合性,βn和γn具有渐近正态性.其次,我们讨论在病例队列研究中比例风险模型下对相依Ⅱ型区间删失失效时间数据的半参数分析.病例队列设计经常被用来作为一种降低成本的方式,尤其当疾病发病率比较低和协变量测量比较昂贵时.虽然许多学者已研究了病例队列研究的回归分析,但是许多现存的方法都是针对右删失数据,并不能用于处理区间删失数据.而且,有时感兴趣事件的失效时间和删失机制之间是相关的,如果我们忽略它们之间的相关性,回归分析会得到有偏的或者具有误导性的结果或结论.接下来,我们将考虑如何处理在病例队列研究中比例风险模型下失效时间和删失机制相关的情况.考虑一个具有n个独立个体的失效时间研究.对于个体i,记Ti为失效时间,Zi是p维的协变量向量,i=1,…,n.假设存在两个观测时间Ui和Vi并且满足Ui≤Vi.我们仅观测到Δ1i=I(Ti≤Ui)和(?),分别表示失效时间Ti是左删失和区间内删失.我们仅得到区间删失失效时间数据.对于病例队列研究,仅可以得到经历过失效事件的个体或者来自子队列的个体的协变量信息,其中子队列即整个队列的一个随机样本.如果协变量Zi可被观测到,则ξi=1,否则ξi=0,i=1,…,n.通过Zhou et al.(2017)和其他人,对于子队列的选择,我们将考虑选择概率为q∈(0,1)的独立伯努利抽样.观测数据有如下形式:为了描述协变量效应和相依区间删失,定义Wi=Vi-Ui,i=1,…,n.通过Ma et al.(2016),我们将着重于用Ti和Wi的相关关系来刻画相依删失.对于协变量效应,我们假设存在一个具有均值为1且分布已知但方差η未知的潜变量bi,在给定Zi和bi的情况下,Ti和Wi的风险函数分别具有以下形式:(?)(4)和(?)(5)并假设给定Zi和bi时,Ti和Wi是独立的.定义(?),其中(?)和(?)(?).对于θ的估计,逆概率加权对数似然函数为(?)(6)其中(?)表示bi的密度函数,pi为(?)其中,(?)和(?)将在第三章给出.若f是伽玛分布,我们可得到函数lOξ(θ)的具体形式.接下来,我们将讨论逆概率加权对数似然函数lOξ(θ)的极大化问题.因为函数中包含着未知函数Λt(t)和Λw(t),直接极大化函数lOξ(θ)是困难的.为了解决这个问题,通过Ma et al.(2015),Zhou et al.(2017)和其他人,我们提出利用Bernstein多项式近似这两个未知的函数.在第三章的数值研究中,我们将利用matlab中的fmicon函数得到θn的估计量.下面我们讨论估计量的渐近性质.记(?)为θ的估计量,(?)表示θ的真值.定理1 假定第三章中的正则条件(A1)-(A4)成立.那么当 n →∞时,我们有(?)并且(?),其中m=o(nv),v∈(0,1),r定义在正则条件(A3)中.定理2 假定第三章中的正则条件(A1)-(A5)成立.那么当n →∞并且如果v>1/2r时,那么我们有(?)其中(?)对于(?)和(?)表示基于完全队列数据的(?)的信息矩阵和有效得分.对于vn=(βtn,βwn,ηn)的协方差阵,由于很难得出其相合估计量,我们采用Ma and Kosorok(2005)讨论的加权自助法过程.通过Ma and Kosorok(2005),可以证明加权自助方差估计量是相合的.最后,我们考虑在病例队列研究中,加性风险模型下对Ⅱ型区间删失失效时间数据的半参数分析.在病例队列研究中,许多学者研究了在加性风险模型下的回归分析,但是现存的所有方法均假设或仅适用于右删失数据.所以接下来我们将讨论加性风险模型下,对Ⅱ型区间删失失效时间数据的半参数分析.考虑一个具有n个独立个体的队列研究.对每个个体i,记Ti为感兴趣的失效时间,Zi是与Ti相关的p维协变量向量.对于Ti和Zi的关系,我们假设给定Zi时,Ti的风险函数具有以下形式:(?)(7)即Ti服从加性风险模型(Lin et al.,1998).对于个体i,我们假设存在两个观测时间Ui和Vi,且满足Ui<Vi.定义示性函数δ1i=I(Ti≤Ui),δ2i=I(Ui<Ti≤Vi)和δ3i=1-δ1i-δ2i.在病例队列研究中,仅可获得子队列中的个体或者经历过感兴趣的失效事件的个体的协变量信息.如果协变量Zi知或者被观测到,则定义ξi=1,否则,ξi=0,i=1,…,n.那么在病例队列设计下,观测数据形式如下:#12对于子队列的选择,通过Zhou et al.(2017),我们将考虑成功概率为q ∈(0,1)的伯努利抽样上.那么,协变量Zi被观测到的概率为#12i=1,…,n.我们假设给定Zi时,Ti独立于观测过程或者观测时间Ui和Vi.即我们有独立删失机制(Sun,2006).在第四章,针对回归参数β,我们提出了基于估计方程和基于伪似然的估计方法.通过Zhou et al.(2017)和Wang et al.(2010),我们得到逆概率加权估计方程UIPW.并且定义UIPW(β)=0的解βIPW为β的逆概率加权估计量.接下来的定理确定了βIPW的渐近性质.定理3 假定第四章中的正则条件(A1)-(A4)成立,那么βIPW是相合的,并且 n →∞时,我们有(?)依分布成立.其中Ωw=B1+B2和(?)(?)(?)(?)(?)(?)k=0,1,2.为了对回归系数进行统计推断,我们需要估计βIPW的协方差矩阵.通过Ma and Kosorok(2005),我们采用非参加权自助过程对其进行估计.对于基于估计方程的估计方法,需要注意的是此方法并不涉及基线累积风险函数Λ(t)的估计,因此,此方法会相对稳定或者稳健.另一方面,它可能会丢失一些效率.与此相对应,我们将提出基于伪似然的方法.在基于伪似然函数的估计过程中,我们必须同时处理β和基线累积风险函数A(t)的估计,这是困难的.针对这个问题,根据Ma et al.(2015)和其他人,我们利用Bernstein多项式近似A(t),在第四章中我们将给出更多细节.我们定义θ=(βn,Λn)的伪极大似然估计θn=(βn,Λn)为极大化伪对数似然函数得到的θ值.对于确定θn,我们使用Matlab中fmincon给出的内点算法.对于βn的协方差矩阵,我们提出运用Ma and Kosorok(2005)的加权自助法过程.以下定理确定了θn的渐近性质.定理4 假定第四章中的正则条件(A1),(A3)-(A6)成立.那么n→∞时,我们几乎必然有(?),并且(?),其中v∈(0,1)使得m=o(nv),r被定义在正则条件(A5)中.定理5 假定第四章中的正则条件(A1),(A3)-(A6)成立并且正则条件(A5)中r>2.那么如果v>1/(2r)和n→∞时,我们有(?)依分布成立,(?)其中,对向量(?)和(?)分别是基于单个观测下β的信息矩阵和有效得分.