论文部分内容阅读
目的和意义等效性评价不仅在新药临床试验领域中的应用越来越多见,在其他医学领域也有广阔用途,如两种药物的疗效是否相当,两种检测方法能否互相替代,两种预防措施的预防效果是否相近等。对于此类问题,如果还进行空白对照或安慰剂对照设计,有时会面临伦理道德上的问题,而进行阳性对照设计,并应用等效性检验无疑是正确的。然而,由于一些客观原因的存在,致使在实际的各领域研究中,阳性对照的等效性评价尽管理念正确但难以实施,出现了理论与现实的冲突,例如,很多作者利用传统假设检验方法,在P>α(显著性水准,例如为0.05)时,直接下“等效”或“无差异”的结论,即将等效性检验等同于传统假设检验不拒绝零假设的情形。并据此将所谓的新方法、新措施推广,以替代已有的有确证效果的方法、措施,从而可能引起巨大的经济损失和健康损害。为强调传统假设检验方法与等效性检验方法有关概念的区别,国内已经有学者进行了报道,并有关于等效性检验软件的介绍,但关于二种检验方法的联系规律,以及用传统的假设检验方法在某些情形下替代等效性检验的尝试,国内外尚未见报道。因此,如何避免当前大量存在的误用传统的假设检验不拒绝零假设下等效性结论是一个亟待解决的问题。本课题拟研究在不同的设计、资料类型下传统假设检验与等效性检验的联系规律,并探讨在传统假设检验结果为P>α时,依据事先规定的等效性界值结合本课题研究结果下等效性结论的可能性,进而将本研究结果以方便查询的表格形式表达出来。若研究结果理想,则可根据本课题所提供的研究结果直接利用传统假设检验方法做出是否等效的判断,从而避免误用传统假设检验所带来的经济损失和健康损害;也可在条件受限时,从文献所提供的信息做出是否等效的判断;本研究还可以丰富等效性检验的内容。为本文阐述方便,我们将以比较两者间有无统计学差异为目的的传统假设检验,称之为差异性检验;以验证两者间是否在实际意义上等效的检验,称之为等效性检验。研究方法考虑三种设计类型,即两独立样本均数比较、两相关样本均数比较和两独立样本率比较。用MATLAB软件编程进行模拟研究。所编写程序中的差异性检验过程均通过了统计软件SPSS13.0的验证、等效性检验过程均通过了等效性检验软件EquivTestTM2.0的验证。根据各权威统计学教科书以及应用等效性检验相对正规、成熟的临床药理试验方面的文献所提供的公式分别计算差异性检验和等效性检验的样本量,并经nQuery Advisor软件确认相符后,最终确定不同设计、资料类型下的样本量。一、用差异性检验下等效性结论的P值临界点的确定步骤如下:1.设定参数计量资料:Ⅰ类错误概率α取0.05;Ⅱ类错误概率β分别取0.10,0.20;等效性界值δ分别取0.10μs,0.15μs,0.2μs(μs为标准组总体均数);变异系数CV分别取0.10,0.20,0.30,0.40,并假定两总体标准差σ相等,CV=σ/μs;两总体均数之差设为δ,即|μT—μS|=δ(μT为试验组总体均数)。计数资料:α取0.05,β分别取0.10,0.20,δ分别取0.05,0.10,0.15,标准组总体率πS分别取0.60,0.70,0.80,0.90;试验组总体率πT每隔0.05分别取0.50~0.95的数值。两总体率之差设为等效性界值δ,即|πT—πS|=δ。用双侧差异性检验的样本量估计公式计算样本量n差。2.求差异性检验的P值从被比较的两个总体中反复模拟抽样,并对抽样结果为|(?)T—(?)S|<δ或|pT—pS|<δ的情形进行差异性检验,得到相应的P值。3.等效性检验对差异性检验的P值中大于α的样本继续进行等效性检验,凡结果为等效者,将差异性检验的P值记为P等;凡结果尚不能认为等效者,将差异性检验的P值记为P不等。4.确定基于差异性检验的等效判定界值Pcut定义P不等的第99百分位数为Pcut。当差异性检验的P值大于等于Pcut时,判定等效。5.对Pcut考核根据差异性检验的P值大于等于Pcut判定等效的标准,计算|(?)T—(?)S|<δ或|pT—pS|<δ中误判为等效的发生率,以考察本研究结果的可靠性。6.各种参数下的Pcut分别增加或减少样本量,并确定不同样本量下的Pcut,总结于表格中,以供查询。7.不同P值下的等效性结论判错率在差异性检验样本量估计公式计算所得样本量不变的条件下,由小到大变换判定等效的标准(而不仅仅是前述P不等中特定的第99百分位数Pcut),并同时计算其相应的判错率,总结于表格中,以供用户查询,并获知根据其当前差异性检验结果的P值下等效性结论时所冒风险。此处的判定标准记做Pvar,以区别于前述的Pcut。二、用差异性检验下等效性结论的样本量步骤如下:1.设定参数两总体均数之差|μT—μS|以及两总体率之差|πT—πS|均设为<等效性界值δ,其他,参数设置同前。用等效性检验样本量估计公式计算样本量n等。2.求差异性检验的P值从被比较的两个总体中反复模拟抽样,并对抽样结果为|(?)T—(?)S|<δ或|pT—pS|<δ的情形进行差异性检验,得到相应的P值。3.进行等效性检验对差异性检验的P值中大于α的样本继续进行等效性检验,并不断增加样本量,直至等效性检验的结果为等效性结论者所占百分比(下称吻合比)为100%(在程序中设定为超过99.6%),将所需要的样本量n吻合记录于表格中,以供查询。研究结果一、用差异性检验下等效性结论的P值临界点1.依据Pcut下等效性结论(1)计量资料:除了个别样本量很小的情形外(如<8),在其他条件相同情况下,变异度越大,Pcut越小;样本量越大,Pcut越小;等效性界值越大,Pcut越大。利用Pcut下等效性结论的犯错概率理论上<α+2β×0.01(如<0.05+0.002=0.052)。不同的变异度的判错率不一样,相同变异度下,样本量越大,判错率越低。例如在两独立样本均数比较中,经过对部分结果中的Pcut考核,当α=0.05,β=0.10,δ=0.10μs时,随着变异度的增加(10%、20%、30%、40%),其不同样本量下的判错概率估计值分别为0.010~0.023;0.020~0.035;0.027~0.041;0.029~0.046。最大不超过0.052。(2)计数资料:随着等效性界值的增大,并未见Pcut有明显变化趋势;与计量资料相同的是样本量越大,Pcut越小。与计量资料一样,最终按本研究方法下等效性结论时犯Ⅰ类错误的概率<α+0.01×2β。不同大小的总体率,其判错率不一样。相同总体率下,样本量越大,判错率越低。例如当α=0.05,β=0.10,δ=0.10时,随着标准组总体率πS的逐渐增加(0.60、0.70、0.80、0.90),其不同样本量下的判错率分别约为0.024~0.038;0.036~0.039;0.048~0.051;0.037~0.047。最大不超过0.052。2.Pvar与下等效性结论判错率的关系在固定样本量不变的前提下,根据差异性检验结果P值下等效性结论的话,随着判定等效标准Pvar的提高,判错率逐渐降低。Pvar略大于α时的判错率是较高的。这也说明,差异无显著性意义,不一定等效。三种设计类型,除了个别情形外,根据Pvar下等效性结论的判错率非常接近。因此可制成简易查询表。为严格控制Ⅰ类错误起见,本研究取相同情形下Pvar的最大值。以Pvar为自变量,分别以β=0.10和0.20时的判错率为因变量,拟和模型。结果显示判错率随着判定标准Pvar的增加,呈三次曲线变化趋势。两模型分别为Y=0.29-2.22X+6.24X2-5.87X3和Y=0.56-3.83X+10.18X2-9.31X3,其决定系数分别为R2=0.98,R2=0.99,且均有统计学意义(P=0.000)。二、用差异性检验下等效性结论的样本量1.两独立样本均数比较如果以等效性检验样本量估计公式所计算出的样本量n等为基数,在总体均数之差小于等效性界值的条件下,若样本量增加50%~140%时,吻合比可达到100%。由于本研究结果所设定的样本量标准n吻合至少比差异性检验所需样本量,n差又增加了50%以上,由具体模拟结果可见,此时差异性检验的效度已经很接近100%,此时如果差异性检验结果仍然为P>α,从理论上也支持无差异或差异无实际意义,并无效能不够之嫌。在α和β固定的条件下,吻合比达到100%时,所需要的样本量绝对数随着变异度的增大而增大;随着总体均数间差异的增大而增大;随着等效性界值的增大而减小。在α和β固定的条件下,吻合比达到100%时,在公式2-2计算所得n等基础上需增加的百分比随着变异度的增大而减小;随着总体均数间差异的增大而增大;随着等效性界值的变化无明显变化。2.两相关样本均数比较经模拟,无法找到合适的样本量以使吻合比达到100%。3.两独立样本率比较在标准组率不变、两组总体率之差不变的条件下,等效性检验所需样本量,n等虽然相同,但最终达到吻合比要求的样本量n吻合与试验组率的大小有关。试验组率距离0.50较远者,达到吻合比要求所需要的样本量n吻合较少;反之,需要的n吻合较多。在等效性界值和两总体率差异不变的条件下,随着率的实际数值距离0.50的增大,n吻合有逐渐减小的趋势。结论1.依据Pcut下等效性结论对于计量资料,用户可根据实际所用样本量、由试验结果所求出的变异度(合并方差的平方根与标准组均数之比)以及差异性检验P值查询本研究结果所提供表格,若大于等于表中的Pcut,,则可下等效性结论,犯错概率小于α±2β×0.01。对于计数资料,用户可根据实际所用样本量、由试验结果所求出两样本率之间的相对大小关系以及差异性检验P值查表,若大于等于表中的Pcut,则可下等效性结论,犯错概率小于α+2β×0.01。2.依据Pvar下等效性结论用户若以等效性界值δ作为两均数之差或两率之差计算差异性检验所需样本量进行研究,经差异性检验,可将所得P值与本研究结果提供的表格进行比较,根据相应Pvar值所对应的判错率大小,对是否下等效性结论做出决策。必要时可用本研究所拟和的模型计算出判错率。3.依据n吻合下等效性结论尽管吻合比达到100%时的样本量变化有一定的规律,但由于下等效性结论的限制条件较多,可操作性差。总之,本研究揭示了传统假设检验同等效性检验的联系规律,根据本课题的研究结果可在一定条件下直接利用传统假设检验方法做出是否等效的判断;丰富了等效性检验的内容。需要强调的是,本课题是为解决当前大量存在的错误——传统假设检验结果在P>α时直接下“无差异”、“等效性”结论而进行的研究,所以本研究的内容是试图寻求传统假设检验结果在P>α时,可以下等效性结论的条件并探讨两种检验方法之间的联系规律。本研究并不否认传统假设检验结果在P≤α时也有可能是等效的。