论文部分内容阅读
研究背景:倾向性评分法是目前控制观察性研究资料中非随机化分组组间的混杂偏倚的主要方法之一。该方法主要分两步进行:第一步,构建处理因素模型,估计倾向性评分值;第二步,应用倾向性评分值,构建结局变量模型,即在不同的对比组间根据该倾向性评分值进行分层、回归、加权或者匹配以达到对比组间协变量分布的均衡,然后在已均衡了协变量分布的匹配组中或者层内构建结局变量模型,进行处理效应的估计。目前,倾向性评分法还存在着一些难以解决的问题:(1)没有考虑倾向性评分值的不确定性对于估计处理效应的影响;(2)估计处理效应时没有办法利用先验信息。将贝叶斯统计的思想引入到倾向性评分法中可以很好的解决以上问题。然而,截至目前,有关贝叶斯倾向性评分的理论研究和实际应用都仅仅适用于二分类分组变量。而在实践中,我们常常会遇到处理因素为多个分组的情况。因而,应用于处理因素为多个分组变量的贝叶斯倾向性评分法亟待研究。研究目的:本研究旨在探索当处理因素为多个分组变量(包括无序多分类和有序多分类资料)时如何将贝叶斯方法引入倾向性评分法中以控制多组组间的混杂偏倚,并通过不同方法的比较探索均衡多组组间混杂因素的最优方法,解决观察性研究实践中遇到的实际问题,并将所建立的模型应用到一项流行病学调查的真实数据的分析中,推广应用。研究方法:1、模型的构建:(1)提出中间贝叶斯广义倾向性评分法,分为两步:第一步为构建贝叶斯处理因素模型,估计广义倾向性评分值。当处理因素为无序多分类变量时采用贝叶斯多分类logistic回归模型,当处理因素为有序多分类变量时采用贝叶斯有序logistic回归模型。第二步为构建一般结局变量模型,采用多元线性回归模型估计处理效应。若处理因素为无序多分类变量,则应用回归法;若为有序多分类变量时,运用回归法、分层法和加权法。(2)提出两步骤贝叶斯广义倾向性评分法,第一步为构建贝叶斯处理因素模型,第二步为构建贝叶斯结局变量模型,采用贝叶斯回归模型估计处理效应。估计广义倾向性评分值方法和应用方法与中间贝叶斯广义倾向性评分法相同。2、数据的模拟:针对观察性研究的基本数据结构进行原始数据的模拟,产生处理因素、协变量和结局变量等三种变量构成模拟数据集,其中处理因素分别考虑有序四分类变量和无序三分类变量的情况;协变量分别考虑两分类变量、多分类变量和连续型变量的情况;结局变量仅考虑连续型变量的情况。模拟了1000个数据集,并考虑N=100、250和500三种不同的样本量。当处理因素为无序三分类变量时,考虑1=-0.4,2=0.3和1=-1.5,2=2.5两种不同的处理效应真实值和B t=0、1、10、100四种不同的处理因素模型的先验精度;当处理因素为有序四分类变量时,考虑=-0.4和=2.5两种不同的处理效应真实值,三种不同的处理因素模型的先验精度(B=1、10、100)和三种不同的广义倾向性评分值应用方法(回归法、分层法或加权法)。对于两步骤倾向性评分法,我们还考虑了0、1、10、100四种不同的结局变量模型的先验精度,并考虑了无先验信息和真实参数值作为先验信息两种情况。3、实例应用:本研究将构建的模型在一项实际的流行病学调查“中国人群胃肠疾病患病情况调查”中进行应用,分析自评工作压力和婚姻状况分别对与健康相关的生活质量评分的八个维度的影响。采用一般和中间贝叶斯广义倾向性评分法进行分析,并与传统的多元线性回归法的结果进行比较。研究结果:1、模拟研究结果:通过估计值与真实值的差值的绝对值(即偏倚)的大小来判断处理效应估计的准确与否。偏倚越小,估计结果越准确。通过MSE判断模型的精度。通过相应的95%置信区间来判断处理效应估计值是否有统计学意义。从处理效应估计值的偏倚和MSE来看,一般广义倾向性评分法重复1000次的结果比重复1次的结果更准确; N=500时,即样本量足够大时,贝叶斯广义倾向性评分法和一般方法得到的估计值非常接近,两种方法大部分的结果偏倚在0.01或0.02左右。两种方法的MSE也很接近,差异也在0.01左右。从处理效应估计值的标准误差来看,贝叶斯方法的标准误差略大于一般方法。(1)中间贝叶斯广义倾向性评分法的拟合结果:a)处理因素为无序多分类变量:当1=-1.5,2=2.5且N=100时,贝叶斯方法在B t=0时得到的处理效应估计值比一般方法要准确得多(贝叶斯方法1和2的偏倚为0.04和0.11,MSE为0.21和0.10;一般方法为0.21和0.25,MSE为0.17和0.18)。b)处理因素为有序多分类变量:当=-0.4时,应用回归法后,贝叶斯方法和一般方法在小样本即N=100时的任意先验精度下得到的处理效应估计值相似,与真实值的偏倚均小于0.01。而应用加权法后,在小样本N=100的情况下,贝叶斯方法在先验精度B t=100时得到了比其它先验精度更为精确的结果(B t=1时偏倚=0.06,B t=10时偏倚=0.05,B t=100时偏倚=0.01),并且该结果比一般方法更接近真实值(一般方法的偏倚=0.03)。通过计算MSE得到,贝叶斯方法在先验精度B t=100时的MSE为0.01,略小于一般方法(MSE=0.02)。根据各自相应的95%置信区间,回归法和加权法的处理效应估计均有统计学意义。同样在小样本的情况下,应用分层法后,贝叶斯方法在先验精度B t=10时估计效果较其它先验精度好,并且与一般方法相似,然而各自相应的95%置信区间均包括了0,因此分层法得到的各估计值均没有统计学意义。当增加到2.5时,应用回归法、加权法以及分层法的处理效应的估计值的特点均与=-0.4时一致。(2)两步骤贝叶斯广义倾向性评分法的拟合结果:本研究中,无先验信息和真实值为先验信息两种设计得到的结果相似。a)处理因素为无序多分类变量:当1=-1.5,2=2.5且N=100时,贝叶斯方法在B t=0且B t=0时得到的处理效应估计值比一般方法要准确得多且有统计学意义(贝叶斯方法1和2的偏倚为0.04和0.11,MSE为0.21和0.10;一般方法为0.21和0.25,MSE为0.17和0.18);b)处理因素为有序多分类变量:从处理效应估计值的偏倚来看,不论处理效应的真实值多少,不论样本量大小,不论处理因素模型的先验精度取值多少,应用分层法和回归法后,当结局变量模型的先验精度为0时,贝叶斯广义倾向性评分法和一般方法得到的估计值非常接近,两种方法大部分的结果偏倚在0.01左右。从MSE来看,贝叶斯方法上述情况下的MSE与一般方法的差异也在0.01左右。应用加权法后,则贝叶斯方法在各种条件下得到的处理效应估计值的准确性远不如一般方法,并且随着结局变量模型先验精度Bγ的增加,偏倚也越来越大。2、实例研究结果:(1)自评工作压力对健康相关的生活质量的影响:三种方法结果相近。工作压力会影响到VT(活力)和MH(心理健康),当工作压力每上升一个程度,活力评分就会下降1.32分,心理健康则会下降约2分。(2)婚姻状况对健康相关的生活质量的影响:多元线性回归模型的结果中,婚姻状况会影响到PF、VT、SF、RE和MH等五个维度,而经过广义倾向性评分法调整以后,所有协变量都达到均衡的情况下,婚姻状况主要会影响到GH(健康总体自评)、VT(活力)、RE(情绪对角色功能的影响)、MH(心理健康)。与已婚的人群相比,离婚分居或丧偶的人群的健康总体自评分值下降了3分左右,活力评分则下降了约4分,而情绪影响分值更是下降了6分左右,心理健康评分下降了近5分。研究结论:(1)贝叶斯方法在小样本情况下略显优势。(2)因考虑了估计的广义倾向性评分值的不确定性,采用贝叶斯方法得到的处理效应的标准差大于一般方法。(3)在处理因素为无序多分类变量的情况下,一方面,当两个处理效应的真实值相差较大时,贝叶斯方法在先验精度为0时能得到与一般方法相比更为接近处理效应真实值的结果;另一方面,在一般方法得到的处理效应估计的偏倚较大时,采用贝叶斯方法估计可以大大的降低偏倚。(4)当处理因素为有序多分类变量时,我们推荐应用回归法或者在使用加权法时采用基于较高先验精度的中间贝叶斯广义倾向性评分方法,或者基于结局变量模型先验精度为0的情况下应用回归法或分层法的两步骤贝叶斯广义倾向性评分法。(5)中间贝叶斯广义倾向性评分法和两步骤贝叶斯广义倾向性评分法得到的处理效应最佳值是非常接近的,因而尚未能说明哪一种方法更好。在实践中,可以根据实际情况,选择合适的方法,并根据方法选择相应的条件。