论文部分内容阅读
研究背景:随着生物统计学方法学的发展进步以及临床研究对于统计方法的依赖性日益增强,越来越多的统计模型被广泛地应用于临床研究的各个方面,如筛选影响因素、诊断试验、预后评价以及个体化治疗等。列线图预测模型能够通过整合多个预后变量信息从而计算个体生存率,并以人机友好的形式将结合了生物学信息以及临床学信息的复杂模型表现出来,是个体化医疗中不可或缺的方法学工具,已经开始广泛应用于临床各个领域。在构建列线图预测模型时最广泛应用变量选择方法为逐步回归法,但是越来越多的统计学家认为应用传统的逐步回归法所构建的预测模型存在着一定的缺陷,如计算的偏大,P值偏小,未校正模型的不确定性,容易发生过度拟合的情况等等,并且这种方法太过于注重变量与事件的联系,而并没有考虑到模型的构建过程。随着贝叶斯学派的兴起,贝叶斯模型平均法也开始越来越受到统计学家们的重视。贝叶斯模型平均法将模型的不确定性考虑在内,通过贝叶斯算法计算变量以及模型的后验概率将模型科学地加权平均,从而推导变量与事件之间的效应以及选择正确合适的模型形式。但是贝叶斯模型平均法在国内外预测模型的建立中还处于初步探索阶段,尤其是在生存数据中和传统的逐步回归法以及新兴的惩罚类方法Lasso相比较的优劣以及适用条件尚不明确,有待进一步研究。研究目的:本研究通过模拟研究探索贝叶斯模型平均法的基本性质和适用条件,同时比较在不同样本量、不同残差项以及不同的数据情境中贝叶斯模型平均法构建模型的准确性和稳定性,并和传统的逐步回归法以及Lasso法相比较,探索不同情境下模型的最佳构建方法。最后,将以上几种方法同时应用于实例数据中,以验证模拟研究结果,提高建立列线图预测模型的稳定性。研究方法:本研究采用Bender算法模拟纵向生存数据集,并考虑样本量,残差项以及模型的复杂性建立不同的数据情境,对于贝叶斯模型平均法通过设置均衡先验信息来获取自变量的后验信息,将阈值设置为50%和95%分别构建模型,对于Lasso法则根据交叉验证法来选取最佳调整参数,从而调整收缩系数选择变量并构建模型,逐步回归法则以P值小于0.05作为进入标准0.15作为排除标准,在各种数据条件下全面比较三种变量选择方法建立模型的优劣,并将贝叶斯模型平均法应用到晚期肝癌实例数据中,探索稳定的模型构建形式。研究结果:当样本量较小时,以50%作为后验概率阈值的贝叶斯模型平均法在选择真实变量,剔除混杂变量以及构建模型上和逐步回归法并没有明显的区别,而相应的,当以95%作为后验概率阈值时,贝叶斯模型平均法由于选择变量标准过于严格其表现要略差于逐步回归法和Lasso法,但是当样本量较小时三种方法所构建的模型都有比较严重的过度拟合,模型的实际应用价值都有待商榷。当样本量较大时,贝叶斯模型平均法在选择变量、估计参数及构建模型中都要明显优于其余两种方法。首先,贝叶斯模型平均法在校正了模型的不确定性后,以95%作为后验概率阈值时所选择变量几乎不可能为无关变量,即使将阈值下调到50%,贝叶斯模型平均法剔除无关变量的频率也在70%以上,而逐步回归法和Lasso法则分别为60%和70%左右。其次,虽然贝叶斯模型平均法、Lasso法和逐步回归法在选择真实变量的能力上并没有明显的区别,但是由于贝叶斯模型平均法识别无关变量的能力较强,其选择到真实模型的频率也远远超过了其余两种方法。而在参数估计方面,贝叶斯模型平均法对真实变量回归系数估计的偏倚较小,覆盖率也明显优于逐步回归法和Lasso法,在参数估计的准确性上有明显的优势。最后,贝叶斯模型平均法所建立的模型更为稳定,较好的避免了模型过度拟合的问题,而逐步回归法和Lasso法则均有不同程度的过度拟合。但是,贝叶斯模型平均法也存在着一定的缺陷,由于其选择变量标准较为严格,因此,当样本量较小或者残差项较大时,贝叶斯模型平均法难以发现真实变量和事件之间的关联,并且估计参数的准确性以及模型的稳定性都有一定程度的下降,另外贝叶斯模型平均法难以处理具有真实变量间具有组内相关效应的数据,而Lasso法在这一方面则有明显改善。实例数据分析中,贝叶斯模型平均法所建立的模型相对于其他两种方法更为稳健,并且所选择的晚期肝癌患者的危险因素也更具有可信度和临床意义,而Lasso法和逐步回归法都不同程度的纳入了无关变量,并且建立的模型都有不同程度的过度拟合。研究结论:当样本量比较充分数据质量较好,且对危险因素有一定的前期探索,未知的危险因素较少的情况下,贝叶斯模型平均法所构建的预测模型比较稳健,参数估计也更为准确,基于贝叶斯模型平均法构建列线图预测模型对于个体化治疗以及临床实践中治疗方法的决策具有很高的价值。而逐步回归法适合应用于样本量较小时前期危险因素的探索工作,而当和研究对象相关的因素较多,因素间可能存在相关效应时,采用Lasso法则更佳。