基于贝叶斯模型平均法的Nomogram模型的构建及应用

来源 :第二军医大学 | 被引量 : 1次 | 上传用户:Pinger605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:随着生物统计学方法学的发展进步以及临床研究对于统计方法的依赖性日益增强,越来越多的统计模型被广泛地应用于临床研究的各个方面,如筛选影响因素、诊断试验、预后评价以及个体化治疗等。列线图预测模型能够通过整合多个预后变量信息从而计算个体生存率,并以人机友好的形式将结合了生物学信息以及临床学信息的复杂模型表现出来,是个体化医疗中不可或缺的方法学工具,已经开始广泛应用于临床各个领域。在构建列线图预测模型时最广泛应用变量选择方法为逐步回归法,但是越来越多的统计学家认为应用传统的逐步回归法所构建的预测模型存在着一定的缺陷,如计算的偏大,P值偏小,未校正模型的不确定性,容易发生过度拟合的情况等等,并且这种方法太过于注重变量与事件的联系,而并没有考虑到模型的构建过程。随着贝叶斯学派的兴起,贝叶斯模型平均法也开始越来越受到统计学家们的重视。贝叶斯模型平均法将模型的不确定性考虑在内,通过贝叶斯算法计算变量以及模型的后验概率将模型科学地加权平均,从而推导变量与事件之间的效应以及选择正确合适的模型形式。但是贝叶斯模型平均法在国内外预测模型的建立中还处于初步探索阶段,尤其是在生存数据中和传统的逐步回归法以及新兴的惩罚类方法Lasso相比较的优劣以及适用条件尚不明确,有待进一步研究。研究目的:本研究通过模拟研究探索贝叶斯模型平均法的基本性质和适用条件,同时比较在不同样本量、不同残差项以及不同的数据情境中贝叶斯模型平均法构建模型的准确性和稳定性,并和传统的逐步回归法以及Lasso法相比较,探索不同情境下模型的最佳构建方法。最后,将以上几种方法同时应用于实例数据中,以验证模拟研究结果,提高建立列线图预测模型的稳定性。研究方法:本研究采用Bender算法模拟纵向生存数据集,并考虑样本量,残差项以及模型的复杂性建立不同的数据情境,对于贝叶斯模型平均法通过设置均衡先验信息来获取自变量的后验信息,将阈值设置为50%和95%分别构建模型,对于Lasso法则根据交叉验证法来选取最佳调整参数,从而调整收缩系数选择变量并构建模型,逐步回归法则以P值小于0.05作为进入标准0.15作为排除标准,在各种数据条件下全面比较三种变量选择方法建立模型的优劣,并将贝叶斯模型平均法应用到晚期肝癌实例数据中,探索稳定的模型构建形式。研究结果:当样本量较小时,以50%作为后验概率阈值的贝叶斯模型平均法在选择真实变量,剔除混杂变量以及构建模型上和逐步回归法并没有明显的区别,而相应的,当以95%作为后验概率阈值时,贝叶斯模型平均法由于选择变量标准过于严格其表现要略差于逐步回归法和Lasso法,但是当样本量较小时三种方法所构建的模型都有比较严重的过度拟合,模型的实际应用价值都有待商榷。当样本量较大时,贝叶斯模型平均法在选择变量、估计参数及构建模型中都要明显优于其余两种方法。首先,贝叶斯模型平均法在校正了模型的不确定性后,以95%作为后验概率阈值时所选择变量几乎不可能为无关变量,即使将阈值下调到50%,贝叶斯模型平均法剔除无关变量的频率也在70%以上,而逐步回归法和Lasso法则分别为60%和70%左右。其次,虽然贝叶斯模型平均法、Lasso法和逐步回归法在选择真实变量的能力上并没有明显的区别,但是由于贝叶斯模型平均法识别无关变量的能力较强,其选择到真实模型的频率也远远超过了其余两种方法。而在参数估计方面,贝叶斯模型平均法对真实变量回归系数估计的偏倚较小,覆盖率也明显优于逐步回归法和Lasso法,在参数估计的准确性上有明显的优势。最后,贝叶斯模型平均法所建立的模型更为稳定,较好的避免了模型过度拟合的问题,而逐步回归法和Lasso法则均有不同程度的过度拟合。但是,贝叶斯模型平均法也存在着一定的缺陷,由于其选择变量标准较为严格,因此,当样本量较小或者残差项较大时,贝叶斯模型平均法难以发现真实变量和事件之间的关联,并且估计参数的准确性以及模型的稳定性都有一定程度的下降,另外贝叶斯模型平均法难以处理具有真实变量间具有组内相关效应的数据,而Lasso法在这一方面则有明显改善。实例数据分析中,贝叶斯模型平均法所建立的模型相对于其他两种方法更为稳健,并且所选择的晚期肝癌患者的危险因素也更具有可信度和临床意义,而Lasso法和逐步回归法都不同程度的纳入了无关变量,并且建立的模型都有不同程度的过度拟合。研究结论:当样本量比较充分数据质量较好,且对危险因素有一定的前期探索,未知的危险因素较少的情况下,贝叶斯模型平均法所构建的预测模型比较稳健,参数估计也更为准确,基于贝叶斯模型平均法构建列线图预测模型对于个体化治疗以及临床实践中治疗方法的决策具有很高的价值。而逐步回归法适合应用于样本量较小时前期危险因素的探索工作,而当和研究对象相关的因素较多,因素间可能存在相关效应时,采用Lasso法则更佳。
其他文献
通过问卷调查和查阅文献资料的方法,对浙江师范大学体育教学俱乐部制进行研究分析.探索其发展规律,找出一条适合我校进行体育教学俱乐部制改革的新路子,使我校的体育教学俱乐
为全面提高我国警察的警体搏击技能和实战水平,公安部中国前卫体协成功的举办了一系列国内、国际搏击大赛.本文通过对“中国前卫搏击对泰国泰拳对抗赛”的调查和对双方运动员
瑞典的一项研究结果显示,饮用加糖的软饮料,以及加糖的水果汁或烩水果,与罹患胰腺癌的风险大有关系。西方国家的各大癌症组织和医疗机构也提出告诫:多糖的饮食有招惹癌患的风
采用问卷调查与实验对比等研究方法,对高校体育课的准备部分进行了新尝试.结果显示,采用有球练习、体育游戏、小型比赛等方法的尝试是可行的,且学生对体育课的满意率提高,锻
智育心理学理论与实证研究的突破,对体育教学理论与体育教学观念的改革有着极为现实的指导意义.为我们重新认识体育教学的一些基本概念和理论,更新体育教学观念,提高教学技能
本文从体育教育的角度阐述了体育活动对大学生心理健康的影响,认为体育活动能够改善大学生的机体健康状况、培养合理积极的自我认知、调节情绪状态、谐调人际关系、培养优良
素质教育的核心是培养学生的创新和实践能力,体育教学从“应试教育”向素质教育转轨,必须改革传统的体育教育模式,建立新型体育教学模式,充分发挥学生主体作用,注重学生能力
为了全面揭示学校体育的内在联系,研究其发展规律,解决学校体育存在的矛盾,建立和完善学校体育指标是十分重要的.本文从学校体育的主要任务入手,提出了能较好反映学校体育工
本文针对目前国内女子足球运动的发展情况,从三个方面论述女子足球在中专学校开展的意义.认为在中专学校大力开展女子足球运动不仅可以增强中专女生的身体素质,全面贯彻我国
本文从心率、血压、血色素和心脏功能指数等项指标,对地区级体校的少年中长跑运动员,进行了心血管系统形态、机能方面的监测和研究.对于体校利用现有条件,进行医务监督和科学