论文部分内容阅读
区间删失是临床随访研究中除右删失之外普遍存在的数据删失情形。Cox比例风险回归模型是分析随访数据中生存分布与其影响因素的重要方法。对于包含区间删失的数据,采用简单填补法如删失区间的左端点或中点进行填补之后,可以采用常规的偏似然函数对比例风险模型进行参数估计,但是将区间中点填补为观察时间会高估生存率,而将左端点作为生存时间可能会低估生存率,均会使模型的偏倚增加。因此常规填补法并不是理想的处理方法。参数统计方法体系下处理区间删失数据的模型构造,需要明确基线风险函数形式和生存时间的分布,模型估计较为复杂。Bayesian统计方法体系下,结合了基线风险和生存函数的似然函数,同样有模型过于复杂,计算负担重的问题。因此,运用常规的参数统计方法和常规的Bayesian统计方法都存在实际应用的问题。因此,本研究对近年来提出的一种Bayesian比例风险模型方法的统计学性质与实际应用进行了探讨。该法在贝叶斯比例风险回归模型的框架下,以单调样条函数构造联合似然函数中的基线生存函数,以非齐次泊松过程为基础对区间删失的生存时间进行数据扩增,采用Gibbs后验抽样计算,完成比例风险模型的参数估计。本研究通过模拟样本,将该法与多重填补法和经典参数法进行比较,对贝叶斯比例风险模型的推断性能进行评价;并且将该法用于含有区间删失数据的冠心病患者治疗出院后复发心血管事件的随访研究数据,以探讨与冠心病患者预后复发的潜在相关因素为例说明该法的实际应用。主要结果(1)统计模拟试验结果A.不同样本特征对贝叶斯比例风险模型的影响对不同删失区间宽度和区间删失率进行分析,主要结果显示:在10、50、100、200的删失区间宽度下,模型的估计偏差(Bias)没有明显规律与差异;在0.2、0.5、0.8的区间删失率组中,该模型的估计偏差同样没有差异。其余发现包括:随着删失区间宽度的增加,回归系数估计值的95%置信区间的宽度也在不断增加;对于服从正态分布资料的协变量的估计结果的偏差要大于服从二项分布的协变量,其估计结果的标准误(SE)要小于服从二项分布的协变量。B.贝叶斯方法与多重填补法,经典方法的比较三种方法下估计结果的偏差的绝对值都会随着右删失率的增加而增加;在不同区间删失率的样本下,三种方法间的偏差没有明显差异。三种方法估计结果的标准误会随着右删失率的降低而降低,且贝叶斯方法的结果标准误是最小值;在运行速度上,三种方法的运算时间都会随着区间删失率的升高而增加,其中贝叶斯方法的运行时间最长。C.贝叶斯比例风险模型的超参数设置对模拟结果的影响单调样条函数中伽马先验的a_λ和b_λ两个超参数依据已有研究设置为从0.001至1的范围,结果显示其对贝叶斯模型参数估计的偏差绝对值、标准误差和模型拟合优度指标(LPML)的均没有影响;单调样条的估计节点数对于参数估计和模型拟合的影响在不同区间删失率下的样本下均较小,但是通常在节点数为10时偏差最小。(2)实例数据分析结果对心血管事件复发随访研究的分析,在样条节点数为10,超参数a_λ=b_λ=1的模型参数下,Bayesian比例风险模型拟合结果为:早发型冠心病(HR=0.57,95%CI:(0.40,0.79))和糖尿病(HR=1.75,95%CI:(1.38,2.22))均为有统计学意义的变量;多重填补法得到的结果为早发型冠心病(HR=0.60,95%CI:(0.50,0.71))和糖尿病(HR=1.81,95%CI:(1.60,2.03))均为有统计学意义的变量;经典方法的结果为早发型冠心病(HR=0.59,95%CI:(0.43,0.83))和糖尿病(HR=1.80,95%CI:(1.42,2.29))均为有统计学意义的变量。主要结论(1)通过模拟分析,不同删失区间宽度和区间删失率对Bayesian比例风险模型的估计误差影响较小,但是随着区间删失率和删失区间宽度的提高,估计的精度会下降,置信区间会变宽;相比于经典方法和多重填补法,贝叶斯方法有着更为稳健的结果估计,但是检验效能要低于其它两种方法;贝叶斯比例风险模型中的对不同伽马先验超参数和单调样条节点数的设置估计结果都比较稳健。另外,贝叶斯方法较久的运算时间应该被考虑到,因此其在应用中更适用于小样本的数据,并且在其实际应用中可以通过对超参数的设置,得到更为准确的结果。(2)通过对冠心病患者随访调查数据的实例分析,我们认为相较于晚发型冠心病患者,早发型冠心病患者的预后效果较好;合并有糖尿病是心血管事件再发的危险因素。在处理区间删失数据上,临床上常用的单点填补方法应该得到提高,更为稳健的贝叶斯框架比例风险模型是值得向研究者推荐的一种方法。