论文部分内容阅读
研究背景与目的:Meta分析是一种将多个同类研究效应进行定量综合研究的统计方法。由于该方法在集合证据上的优势给临床和医学研究的决策提供了有效信息,因而在循证医学领域得到广泛应用,并随着循证医学的迅猛发展,成为方法学领域研究的热点。然而,meta分析所纳入的文献大部分都只能局限在正式发表的研究中,甚至可能会有许多有意义的研究因未发表而被忽视,这样的综合效应将存在结论偏倚的风险,甚至可能会改变整体的结论。导致这种现象的原因称为发表偏倚。发表偏倚的存在严重的威胁系统评价的有效性。发表偏倚被定义为“部分研究人员、审稿人和编辑提交或接受基于研究的某个方向的结果”。造成这一现象的主要原因是具统计学意义的研究结果比不具统计学意义的结果更可能被普遍接受和发表。发表偏倚所带来的直接后果是对现有的研究进行过度评价,甚至得到相反的结论,这给研究者们造成科学上的误导。因而涌现出一些探测与校正发表偏倚的方法。研究者们真正开始认识发表偏倚最早始于1959年,Sterling和Smart的研究显示在心理学和教育学领域期刊上绝大多数的文章都具有统计学意义。这一现象现也出现在医学期刊,继而在医学领域受到研究者们的重视。Light和Pillemer于1984年提出的漏斗图方法是最早关于探测发表偏倚的方法,也成为目前为止应用最为广泛的探测发表偏倚的理论基础。该方法实质上是一种图示法,统计学上大样本的对称性规律是其核心思想,虽具有直观性,但无法量化评价.Egger将漏斗图用回归的方法表示出来,实现了量化评价,但受纳入研究数的限制而使得该方法的应用和推广有局限性。其它类似的回归方法也同样存在同样的问题。Begg首次提出了非参数的秩相关法来对发表偏倚进行探测,接着出现Schwarzer检验以及Rucher反正弦变换后的秩相关检验,但仍然克服不了研究数过少的问题。对于发表偏倚的校正,剪补法是基于漏斗图的思想发展而来,通过对称性对图像的剪补迭代达到对称平衡以实现校正偏倚的目的。但该方法更多时候会受极值的影响而使得纠正偏倚的效果并不理想。失安全系数法通过假定的极端情形估算出未发表的研究数,该方法可以做为确定是否存在发表偏倚的方法,但却对于无统计学意义的效应量的合并值不适用。近年来的贝叶斯数据扩增方法因为太过复杂可操作性不强。Sterne等提出较小的的样本研究只有获得较大的效应量才可能得到统计显著的阳性结果。继而有各种选择模型被提出,但均限于在模拟选择性发表的过程,确切地说是做了关于发表偏倚的敏感性分析,而没有进一步的研究结果。因此,如何准确探测meta分析中的发表偏倚并使其得以校正,是循证医学研究领域迄今为止尚未解决的难题。这一问题的解决无疑对于提高证据的可信度和准确度具有极为重要的科学价值和现实意义。本研究针对在发表偏倚中由选择性发表产生的偏倚,探讨该偏倚的产生机制,通过对随机变量的选择,将选择性偏倚转化成加权分布的随机抽样,进而实现对偏倚的定量评价,最终达到校正效应量的目的。研究方法:在已有选择模型的基础上将效应量模型与选择模型合并,给出更具一般性的选择模型,称之为广义选择模型。广义选择模型的基本思想是将“选择”因素看作一个随机变量,将其与效应量模型结合,得到存在选择偏倚的研究样本的密度函数,即加权概率密度:f(xi|μ,τ2,σi2,w)=w(xi,σi)f(xi|μ,τ2,σi2)/∫w(xi,σi)f(xi|μ,τ2,σi2)dxi在选择性偏倚发生前,观测样本视为来自真实总体的随机抽样。而在选择性偏倚发生后,可以看作是从上式所列的加权分布中进行随机抽样得到的样本。因此,可以说加权分布的建立消除了非随机抽样的影响,便于为后面的统计推断做准备。本研究在给出加权密度的基础上推导出其相应的期望、二阶矩、协方差等数字特征,从而明确“选择”变量对偏倚的影响,并给出观测样本的加权似然函数的一般形式。通过解析式精确表达了选择变量和偏倚之间的关系,即E[w(xi,σt)]=∫w(xi,σi)f(xi|μ,τ2,σi2)dxi E(Ti)=∫xig(xi|μ,τ2,σi2)dxi=E[w(xi,σi)Xi]/E(w(Xi,σi)] E(Ti2)=∫xi2g(xi|μ,τ2,σi2)dxi=E[w(xi,σi)Xi2]/E(w(Xi,σi)] E(T)-E(X)=cov(X,Y)/E[w(X,σ)]作为推广,文章进一步在Hedges以及Copas研究的基础上,给出单边检验时分段选择函数、左删失选择、相关系数选择的数字特征与加权样本似然函数,以及必要的参数估计。在所建立的选择模型基础上,根据贝叶斯思想赋予未知参数不确定性,将其定义为一个拥有特定先验分布的随机变量。结合选择偏倚发生后研究样本的似然函数,推导出未知参数在样本条件下的后验概率密度。同时为解决参数的后验估计中的高维积分计算问题,运用MCMC算法进行Gibbs抽样。利用加权样本似然函数给出一般的贝叶斯后验分布和Gibbs抽样步骤。通过计算实现对未知参数的贝叶斯估计。作为实际应用,特别对单边检验的分段选择函数的加权密度函数形式,推出其满条件分布。对给定的真实效应量,分别设定参数:异质性τ2=0.1,0.35,0.7,1;研究数N=15,30,50;进行完全数据集的模拟。对模拟的完全数据集利用分段选择函数进行选择,再应用本研究所建立的广义贝叶斯选择模型,通过MCMC算法的Gibbs抽样对meta分析所发生的选择性偏倚的合并效应量进行校正。同时,给出校正效应量的平均偏倚和均方误差用以评价所提出方法的有效性和可行性。由于诊断试验meta分析的特殊性,本研究专门对诊断试验最佳诊断界点的选择进行了深入探讨。对于双正态连续型变量的诊断试验,综合评价指标可表达为关于灵敏度和特异度的一次多项式函数,更详细地可以表示为诊断界点的函数,其中每个指标都是该一次多项式函数的一个特例,即(?)于是最佳诊断界点的确定问题转化为求一次多项式函数的极值点问题。利用连续函数的极值点求得最佳诊断界点。这一问题的解决为消除不同诊断界点确定方法所导致的合并效应量的偏倚奠定了基础。结果:设定不同的异质性及研究数,以模拟不同的数据背景。通过设定选择概率为w1=1,w2=0.3,选择造成了从0.1141到0.5171不等的偏倚,通过剪补法进行校正后,尽管有缩减,但偏倚范围仍然在0.1058到0.4349;再经过贝叶斯选择模型进行校正后,偏倚范围缩至0.0001至0.0588。相比剪补法的均方误差从0.0217至0.3006,贝叶斯的均方误差为0.0023至0.1280。数据模拟显示贝叶斯选择模型可以实现对效应量的校正,并有较高的准确性和较小的均方误差。同时,可以看到贝叶斯选择模型校正效应量的偏倚和均方误差在异质性τ2≤1时,并未显示出随异质性的变化而显著变化。而在异质性固定时,该模型对效应量的校正会随着研究数的变化而波动。进一步与校正前的合并效应量及剪补法比较。经过贝叶斯选择模型校正的合并效应量不论与校正前的合并效应量及剪补法校正后的的结果相比,都具有较小的平均偏倚和均方误差。而在诊断试验的最佳诊断界点合并中,给出统一的确定最佳诊断界点c的方法分为两种情况:当σX2=σY2时,当σX2≠σY2且△≥0时(△=(μX-μY)2+(σX2-σY2)ln(λYσX/λXσY)2),解得结论:本研究提出将选择因素视为一个随机变量加入选择模型,通过加权分布定义广义选择模型。由于加权分布的引入,使得存在选择性偏倚的观测样本由非随机抽样转变为随机抽样,并对其数字特征给出了相应统计推断,便于定量化评价选择性发表偏倚的程度。对广义选择模型中未知参数可以进行贝叶斯估计,利用满条件分布进行Gibbs抽样实现研究效应量的校正。本研究给出了统一的确定最佳诊断界点的方法,以消除因方法不同而造成的偏倚,为诊断试验中基于最佳诊断界点的meta分析做了必要准备。