论文部分内容阅读
研究背景:近年来循证医学(evidence based medicine)得到了迅速发展,基于meta分析的循证医学研究结果也作为较高级别的证据来指导临床实践。目前,在诊断试验评价领域,诊断试验meta分析方法因不能满足应用需求,而使得这一领域的研究受到关注。诊断试验的meta分析方法目前应用最多的是Rutter&Gatsonis(2001)提出的HSROC (hierarchical summary receiver-operator curves)模型和Reitsma等人(2005)提出的双变量随机效应模型(bivariate random-effects model)。 HSROC模型考虑了不同诊断界值对灵敏度和特异度的影响,是目前处理涉及不同诊断界值诊断试验meta分析的主要方法。双变量随机效应模型最初主要是用于分析理论上认为实际的或者潜在的诊断界值是固定时的情况。Harbord (2007)已经证明当不考虑协变量时,上述HSROC模型和双变量随机效应模型是等价的。此外,诊断试验meta分析方法还有Holling (2012)提出的PHM方法(proportional hazards model approach), Doebler (2012)提出的将基于logit变化的双变量随机效应模型扩展到基于tα族变换的双变量随机效应模型,Rucker(2010)提出的基于加权Youden的SROC (summary receiver operating characteristics)模型,另外还有基于bayes的模型,以及我系研究生刘江美于2013年提出的以加权Youden指数作为合并效应量的meta分析方法。Rutter的HSROC模型和Reitsma等的双变量随机效应模型是目前应用最广的模型。上述模型普遍存在三个重大缺陷:一是诊断界值的确定过分理想化,与现实脱节;二是假设灵敏度和特异度均服从二项分布且相互独立,与灵敏度和特异度高度相关这一事实相悖;三是仅仅利用了灵敏度、特异度信息,忽略了诊断界值及诊断指标的分布信息。诊断界值的确定方法,有基于Youden指数也有基于ROC曲线的确定方法。其中Youden指数是灵敏度和特异度之和,它将灵敏度和特异度的重要性同等看待。但是,在临床诊断的应用中,由于疾病的性质不同,对于灵敏度和特异度的权重要求也不同。针对这一实际问题,李丹玲和陈平雁提出了加权Youden指数,将加权Youden指数定义为Jw=2[w·SEN+(1-w)·SPE]-1其中0≤w≤1,进一步满足了临床应用的需求,但是将权重的确定问题留给了应用的一方。关于加权Youden指数中权重的确定方法,Pepe (2003)和Perkins&Schisterman (2006)分别提出了基于疾病发病率和错分类相对代价(relative costs of misclassification)的方法,但是这两种方法中所用到的疾病发病率和相对代价在现实中都很难获得。Rucker(2010)提出的基于加权Youden指数的SROC meta分析模型中给出了基于logistic分布的权重估计方法,但是并未经过模拟验证。因此,关于权重的确定问题有待新方法的诞生。研究目的:本研究的目的:①在正态分布和logistic分布假设下,基于加权Youden指数确定最佳诊断界值的准则,建立估计灵敏度、特异度、最佳诊断界值及加权Youden指数的方差及置信区间的参数和非参数方法;②将Rucker (2010)提出的确定权重的方法推广到更一般的情形,并用Monte Carlo方法进行验证;③提出新的基于最大加权Youden指数的SROC模型,并通过模拟验证。方法:1.参数方法采用delta法构建灵敏度、特异度、最佳诊断界值及加权Youden指数的方差及置信区间;非参数方法采用bootstrap方法构建构灵敏度、特异度、最佳诊断界值及加权Youden指数的方差及置信区间;用Mome Carlo方法验证其正确性并比较两种方法的优劣。2.理论推导,对Rucker(2010)提出的权重估计方法进行推广,并在正态分布及logistic分布假设下用Monte Carlo方法进行验证,根据理论推导给出方便的权重确定工具。3.构建基于最大加权Youden指数的SROC模型,用模拟及实例验证其合理性。结果:1、基于最大加权Youden指数诊断界值选择及其置信区间构建1.1参数方法①正态分布假设下加权Youden指数计算公式为Jw=2[w·SEN+(1-w)·SPE]-1,其中0<w<1,要使加权Youden指数取得最大值等价于使w·SEN+(1-w)·SPE取得最大值,我们可以表示为使得λ·SEN+(1-λ)·SPE取得最大值。假设病人中诊断指标D~N(μD,σ2D),对照组中诊断指标H~N(μH,σ2H),则基于最大加权Youden的最佳诊断界值c为:上式中有可能小于0,即存在无解的情况,此时加权Youden指数随着诊断界值的变化是单调的。此时可以分成以下几种情况:α)uD>uH,b≥1,λ≥0.5,此时必然有解;b) uD>uH b>1,λ<0.5,此时存在无解的可能,在这种无解的情况下,随着诊断界值增大加权Youden在增大,而且此时2(1-λ)Sp的增速大于2λSe的减速;c) uD>uH, b<1,λ>.5,此时存在无解的可能,在这种无解的情况下,随着诊断界值增大加权Youden在减小,而且此时2(1-λ)SP的增速小于2λSe的减速;d) uD>uH> b≤1,λ≤0.5,此时必然有解;e) uD<uH, b≥1,λ≥0.5,此时必然有解;f) uD<uH, b>1,λ<0.5,此时存在无解的可能,在这种无解的情况下,随着诊断界值增大加权Youden在减小,而且此时2(1-λ)Sp的减速大于2λSe的增速;g) uD<uH, b<1, λ>0.5,此时存在无解的可能,在这种无解的情况下,随着诊断界值增大加权Youden在增大,而且此时2(1-λ)Sp的减速小于2λSe的增速;h) uD<uH, b≤1,λ≤0.5,此时必然有解。当上式有解时,若令c1<c2,则当b>1时c=c2,当b<1时c=c1。当b=1时,界值c的方差用delta法推导,置信区间根据正态近似法构建。基于delta法的Var(c)可构建如下:②Logistic分布假设下假设病人中诊断指标D~Logistic(mD,bD),对照组诊断指标H~Logistic(mH,bH)。求使加权Youden取到最大值的c等价于求如下式子的解:当β1,λ=0.5时,解上式可得当β1,λ未知时,解上式可得取使得t大于0的解,则c=mD-bDln(t)。上式也可能有两个解,此时取选择使得加权Youden最大的解,上式也可能存在无解的情况:a)当mD>mH,λ>O.5时,无解情况下必然是随着诊断界值的增高Youden单调递减,2(1-λ)Sp的增速小于22Se的减速;b)当mD>mH,λ<O.5时,无解情况下必然是随着诊断界值的增高Youden单调递增,2(1-λ)SP的增速大于22Se的减速;c)当mD<mH,λ>0.5时,无解情况下必然是随着诊断界值的增高Youden单调递增,2(1-λ)Sp的减速小于2λSe的增速;d)当mD<mH,λ<0.5时,无解情况下必然是随着诊断界值的增高Kouden单调递增,2(1-λ)Sp的减速大于22Se的增速。当β和λ均未知时上式没有解析解,此时利用泰勒展开法求近似解,上式左边可以在1处进行泰勒展开,求近似解得:取使得t*大于0的解,则c=mD-bDln(t)。上述所有c的估计值c可以通过将λ,β,q代入各式中求得。上式同样会出现无解的情况,此时随着界值的变化加权Youden指数单调。c的方差同样采用delta法估计,置信区间构建为基于delta法的Var(c)可构建如下:1.2非参数方法现实应用中当我们不依赖背后的分布时,常采用基于样本数据,计算每个样本取值为界值时,其对应的加权Youden指数,然后选择使得加权Youden指数取得最大值的界值。这种方法我们把它叫做最佳诊断界值的非参数估计方法。非参数方法中最佳诊断界值的方差及置信区间采用bootstrap方法构建。第一种bootstrap (BP)方法,策略1是将原有的样本进行重抽样,重复B次找出第α/2及1-α/2分位数构建置信区间,可以称之为非参数的bootstrap方法;策略2是基于样本估算的参数,如样本均值和标准差,从背后的分布中重新抽样,如正态分布,模拟B次找出第α/2及1-α/2分位数构建置信区间,可以称之为参数的bootstrap方法。策略2相比较与策略1的优势在于在meta分析中,当我们无法获得原始数据时较实用。第二种为矫正bias的bootstrap方法:bias corrected and accelerated bootstrap(BCa)。第三种正态近似法(AN),用bootstrap重抽样后先计算诊断界值的方差,然后基于正态近似构建置信区间。1.3模拟研究从模拟研究结果我们得出,基于delta法及bootstrap方法构建的诊断界值置信区间,其覆盖率都非常接近设定的95%,可以满足我们的应用需求。在满足参数法条件时,参数法不论是从bias还是从MSE来评价都要大大优于非参数法。另外我们也得出,参数法无解时模拟中采用的用样本最大值或最小值去估计诊断界值的方法是不可行的,会增大bias。另外模拟结果还发现当灵敏度或特异度接近0或1的极端情况时非参数法失效,但有待后续进一步验证。总体来看,当满足参数方法条件时我们推荐优先选择参数法,虽然参数法存在无解情况,但是现实应用中给灵敏度特异度设置一个下限,例如0.5,就可以避免无解情况的出现,而且也非常符合现实需求。2、最大加权Youden指数及对应灵敏度、特异度置信区间构建2.1参数方法①正态分布假设下不失一般性,令uD>uH则:根据delta法灵敏度、特异度及加权Youden指数的方差可以构建如下:置信区间根据正态近似法可以构建为:②Logistic分布假设下不失一般性,令mp>mH则:Se=Ψ(mp-c/bD)、Sp=Ψ(c-mH/bH根据delta法灵敏度、特异度和加权Youden指数的方差可以构建如下:根据正态近似法可以构建置信区间为:2.2非参数方法当用非参数的方法选择诊断界值时,其对应的最大加权Youden指数和相应灵敏度、特异度的置信区间均采用bootstrap方法估计。其估计策略与诊断界值估计策略相同。2.3模拟研究模拟结果显示,当满足参数法条件时,不论是灵敏度、特异度还是最大加权Youden指数,参数法的结果不论是从bias还是从MSE指标均大大优于非参数的方法,甚至在样本量为50时参数法都优于非参数法在样本量为300时的结果。用delta法构建的灵敏度、特异度还是最大加权Youden指数的95%置信区间其覆盖率绝大多数都在93%~96%区间,其中大部分小于95%,而且随着样本量的增加不断接近95%,基本满足实际应用的需求。灵敏度在正态分布各种参数下,非参数法估计值均偏高,但是偏高的幅度基本上都在0.05以内。Logistic分布下,当β1.5,λ=0.8时,参数法非参数法估计值均偏低,参数法结果偏低主要是受无解情况严重造成的,其他参数情况下参数法均能较好的估计真值,但是非参数法估计值均偏高,这与正态分布下情况相同,偏离的幅度也都在0.05以内。非参数置信区间构建中AN法普遍低于95%,BP法当样本量较大的时候普遍大于95%,而且BP法在小样本中尤其是权重不是0.5时,基本失效。整体来看AN法的结果较BP法更接近95%。两种分布下都出现当真值越偏离0.5时,置信区间越偏离95%的现象。当λ=0.8时,两种bootstrap方法均失效,也就是当灵敏度真值较大时,本次研究中均为大于90%,模拟中用到的bootstrap方法均失效,样本量越大越明显。特异度在正态分布各种参数下非参数法估计值均偏高,但是偏高的幅度基本上都在0.05以内。Logistic分布下,当β0.8,λ=0.8时,非参数法估计值均偏低,其他情况下非参数法估计值均偏高,这与正态分布下情况相同,当λ=0.8时偏离的幅度大于0.3,其他情况偏离幅度都在0.05以内,主要原因是λ=0.8时特异度的真值接近0。非参数法置信区间构建中AN法普遍低于95%,BP法当样本量较大的时候普遍大于95%,而且BP法在小样本中,基本失效。整体来看AN法的结果较BP法更接近95%。两种分布下都出现当真值越偏离0.5时,置信区间越偏离95%的现象。当λ=0.8时,两种bootstrap方法均失效,也就是当特异度接近0时,模拟中用到的bootstrap方法均失效,样本量越大越明显。整体来看,当灵敏度特异度接近1或0时非参数法估计均有较大偏性,模拟中用到的bootstrap置信区间构建法均失效。最大加权Youden指数非参数法均严重高估,样本量50、100时25%分位数都要大于真值,样本量为300时25%分位数与真值接近。两种非参数置信区间法在所有情况下均失效,当用10000次模拟结果的均值代替真值计算95%置信区间是其覆盖率与95%接近。所以本次模拟怀疑用非参数法求加权Youden指数以及Youden指数时,其估计结果不是无偏估计,均要高于真实值。但是从诊断界值及灵敏度特异度估计结果来看,当加权Youden指数仅仅作为一个决策标准时,相应的诊断界值及灵敏度特异度能满足实际应用的需要。3、加权Youden指数权重估计3.1理论推导若用F、f和G、g分别表示病人及对照人群中诊断指标的累积分布函数和概率密度函数,则有:其中c为使得加权Youden指数取得最大值时的诊断界值,Se和Sp为对应的灵敏度和特异度。①正态分布假设下其中Φ,口分别是标准正态分布的累积分布函数和概率密度函数。②Logistic分布假设下其中bD,bH分别为病人组及对照组lOgistic分布的scale;参数。上述的计算方法均为反推的算法,即使在诊断指标不是根据最大加权Youden指数计算时,我们用这种方法也可以反推一个与其对应的权重λ。我们知道,灵敏度、特异度及加权Youden指数均可以表示成关于诊断界值c的函数,以正态分布为例,我们发现c值是关于权重λ和病人及对照组两组的均值和标准差的函数,因此根据已知的或者根据先验信息获得的病人及对照组两组的均值和标准差,我们可以构建一条权重和灵敏度、特异度及加权Youden指数的曲线,从而方便现实中不同研究者根据临床需要选择权重。3.2模拟研究正态分布下,参数法权重计算结果完全与设置的权重一致,这从整个理论推导中可以解释,个别偏离真值的主要是无解情况下的估计方法有偏差造成的。在logistic分布下,因为参数法是根据泰勒展开求得近似解,所以并不能达到完全与真值一致,估计偏差严重的主要是无解情况下替代方法的偏差造成的,结果中当权重为0.8时泰勒展开近似法出现了系统性偏差,结合整个结果来看当膨1时权重越大这种偏差会越大,所以我们怀疑β≠1时权重越接近1泰勒展开近似性越差,但是从前两节的模拟结果来看,这种方法在诊断界值确定及相应指标方差置信区间构建上能满足应用需要。非参数方法不论是在正态分布还是logistic分布假设下,当权重设置为0.5时,估计效果均较好,当权重小于0.5时估计值偏低,当大于0.5是估计值偏高,样本量越大越接近真值。整体来看,不论参数法还是非参数法都能满足现实应用需要,参数法要优于非参数法。4、基于最大加权Youden指数诊断界值的SROC新模型4.1模型构建在正态分布假设下,当时,令可以推出式子中a可以用α=Φ-1(Se)+Φ-1(Sp)估计,也可以直接用已知的分布参数估计,那么通过上式就可以构建基于最大加权Youden指数的ROC曲线,五为0时令Se为0Sp为1,λ为1时Ap为0Se为1,确定了a后令λ从0取值到1,就可以构建一条ROC曲线;而且这种方法还可以通过选择λ不同值,在ROC上取值,相比传统的ROC有其独特的优势。因此我们就可以在原有的ROC曲线上添加一条权重的坐标轴。当用于meta分析时,我们只需对a进行估计。当文中有提供两组均值标准差时:当文中没有提供两组均值标准差时:αi=Φ-1(Sei)+Φ-1(Spi)当b≠1时,最佳诊断入灵敏度和特异度的计算公式,我们同样可以得到权重对灵敏度特异度的表达式,构建ROC曲线,但是上面计算诊断界值c的式子存在无解的情况,此时权重不能取遍整个(0,1)区间,但是可以考虑给灵敏度、特异度设定一个下限,然后绘制部分与权重对应的ROC曲线,也就是权重的坐标轴只是(0,1)区间中的某个子集。当用于meta分析时,我们很容易可以得出也就可以构建模型β·scD+scH=α。然后对每个研究的α、β的估计值做meta分析。当文中有提供两组均值标准差时:当文中没有提供两组均值标准差时:式子中权重的估计借鉴Rucker的策略,将双变量随机效应模型合并后的灵敏度和特异度代入权重计算公式中计算,这里的β可以用其他研究β的合并值估计,当完全没有信息时令β=1。对于每个研究的权重,提出两种方法:方法一:考虑要将有提供均值和标准差的跟只有灵敏度和特异度的区别对待,根据各个研究的样本量,提出如下简易的权重设置方法:当有均值标准差信息时:当没有均值标准差信息时:wi=(1/TPi+1/FNi+1/TNi+1/FPi)-1方法二:逆方差法假设b=1时:当文中有提供两组均值标准差的情况时:当文中没有提供两组均值标准差的情况时:Var(αi)采用基于参数bootstrap法的AN法估计,假设健康人组服从标准正态分布,则病人组服从均值和标准差分别为αi和1的正态分布,然后可模B次,计算每一次的αb=Φ-1(Seb)+Φ-1(Spb),求Var(α)。假设b≠1时:当文中有提供两组均值标准差情况时:利用delta法当文中没有提供两组均值标准差的情况时:Var(αi),Var(βi)采用基于参数bootstrap法的AN法估计,假设健康人组服从标准正态分布,则病人组服从均值和标准差分别为αi,β的正态分布,这里αi用每个研究的估计值,β用上述方法一合并后的估计值而且只能用汇总的估计值,然后可模拟B次,利用估算出的权重λ,计算每一次的和αb=βbΦ-1(Seb)+Φ-1(Spb),求Var(α),Var(β)。这里需要说明的是bootstrap中用到的β必须为汇总的β,因为在正态分布下当样本量固定时方差越小对应样本均值和标准差的变异越小,所以当改用每个研究的βi时,βi越小其对应的方差就越小,也就造成βi在用逆方差方法合并时其对应的权重就越大,结果使得β的估计值严重偏小。根据估计出的α,β就可以绘制我们新提出的融合权重在内的SROC曲线。4.2模拟研究从模拟结果来看,权重设置方法一虽然不能估算异质性τ,但是从α和β的估算来看要比方法二要稳定,除了均值和标准差均已知的情况之外,其他情况下方法二MSE都要大于方法一,尤其是方法二中的bootstrap估计结果造成很多极端值得产生,β估计值中极端值现象尤为严重。当完全基于各研究提供的均值和标准差来做meta分析时,我们可以看到,方法一方法二的估计效果都很理想,从bias及MSE来看要远远优于其他情况下结果,在这种情况下推荐使用方法二,因为方法二bias和MSE均比方法一小,而且可以估算异质性。当数据中只有灵敏度和特异度时,方法一提供的方法可以有效估计,但是目前有很多方法可以处理这样的数据,所以不推荐使用本文提供的方法,因为方法一只能估计汇总效应量,而方法二bootstrap方法计算耗时。当数据是两种数据的混合时,我们看到不管是方法一还是方法二,均值标准差的应用都大大降低了bias和MSE,所以从这一方面来讲利用分布参数信息是很有必要的,在这种情况下我们推荐使用方法一,其相比方法二从模拟结果来看要稳定,bias相差不大但MSE要小很多。从模拟结果我们发现当诊断界值为随机产生时,用本文提供的方法也可以合理估计结果。综上我们推荐,当数据中均值和标准差均已知时使用本文提出的方法二,当各个研究只提供灵敏度、特异度的信息时可以使用HSROC模型,当两种数据汇合时,目前来讲使用本文提供的方法一较好,方法二在这种情况下需要进一步改进。结论:本研究创造性地建立了基于加权Youden指数确定最佳诊断界值及其置信区间的方法,同时建立了对应的灵敏度、特异度及加权Youden指数的置信区间估计方法。本研究提出了基于加权Youden指数的操作性较强的灵敏度和特异度的权重确定方法,方便了加权Youden指数的使用。基于我们的推导,我们创新性的建立了新的SROC模型,相比现有模型它能更充分利用各研究中提供的均值、标准差及诊断界值的信息,提高参数估计的精度和检验效能。