论文部分内容阅读
目的:在医学研究中,对于存在系统结构特征的实际资料,往往采用混合线性模型进行效应估计,但是对于进一步探索患者亚组与治疗方式间复杂的(高阶)交互作用时则效率较低。而决策树模型作为数据挖掘方法中的一种预测模型,具有较强的探索性能,可以同时分析多个预测变量,并且可以自动检测预测变量之间潜在的关系,对于医学疗效评价具有重要的意义。但是对于系统结构数据,传统CART回归树模型估计效率低下,模型构建准确性较低,偏倚较大。因此提高回归树模型的拟合效果及预测性能是将其应用在医学系统结构数据的重要前提。随机效应-最大期望回归树模型(Random Effect-Expectation Maximization Regression Tree,RE-EM)基于回归树模型和混合线性模型的思想,将随机效应从系统结构数据中分离出来,从而提高回归树模型构建的准确性与预测性能。本研究旨在介绍并验证随机效应-最大期望回归树模型的原理,并通过模拟实验与传统CART回归树模型进行横向对比。同时,基于慢性乙型肝炎初治患者诊疗的真实数据进行实证分析及模拟实验,进一步评价RE-EM回归树模型在不同数据结构下的拟合效果及预测性能,为更精准的医学疗效评价和回归树模型构建提供方法学支持和模型选择,为患者诊疗和干预提供方法学建议。方法:第一部分,设置随机效应及残差协方差结构,生成三个终端节点的回归树模型模拟数据,分别拟合RE-EM回归树模型与CART回归树模型,进而评价两种回归树模型在准确性和偏倚方面的优劣,验证RE-EM回归树模型对拟合系统结构数据的适用性。第二部分,基于临床HIS数据中的慢性乙型肝炎初治患者的抗病毒治疗信息,分别拟合一般线性模型、混合线性模型、CART回归树模型以及RE-EM回归树模型,进行抗病毒疗效评估。第三部分,基于四种模型的慢乙肝抗病毒疗效分析结果,探索不同参数(样本量、时间点、残差相关性、底层模型)条件下,RE-EM回归树模型的拟合效果及预测性能。如设定研究对象样本量为50、100、200、500、1000,对应时间点10、20、50、100。预测性能评价分为两部分:(1)预测研究对象新观测,以研究对象前70%的观测作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价;(2)预测新研究对象,以70%的研究对象作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价。结果:第一部分结果显示,在模型构建的准确性和拟合偏倚上,RE-EM回归树模型的表现优于CART回归树模型。在不同数据结构下,RE-EM回归树模型均能准确构建假定的回归树模型,而CART回归树模型对于系统结构数据的拟合效果则不理想,MSE值较大,无法准确构建假定的回归树模型。第二部分结果显示,在拟合适配度和偏倚上,混合线性模型的表现优于一般线性模型。在基于一般线性模型的慢乙肝患者疗效分析中,时依性ALT水平对结局定量HBV DNA检测值的影响差异有统计学意义,而考虑了随机效应及残差协方差结构的混合线性模型则无该关系。在回归树模型的分析中,RE-EM回归树模型的MSE值最小,为0.8048,低于一般线性模型、混合线性模型及CART回归树模型。第三部分结果显示,在模型拟合效果评价中,当线性模拟数据不含随机效应时,线性模型拟合效果优于回归树模型,而对于非线性数据,回归树模型的拟合效果则明显优于线性模型,其中RE-EM回归树模型的拟合效果与CART回归树模型相近。当模拟数据为系统结构数据时,混合线性模型与RE-EM回归树模型的拟合效果相近,优于一般线性模型和CART回归树模型。综合各种情况,RE-EM回归树模型拟合效果较好,优于CART回归树模型。在模型预测新观测的性能评价中,对于具有系统结构特征的线性模拟数据,线性模型预测新观测的性能明显优于回归树模型,其中RE-EM回归树模型的预测性能优于CART回归树模型。对于具有系统结构特征的非线性模拟数据,RE-EM回归树模型与混合线性模型预测新观测的性能最优,明显优于CART回归树模型,一般线性模型拟合效果最差。综合各种情况,RE-EM回归树模型预测新观测的性能较好,优于CART回归树模型。在模型预测新对象的性能评价中,当线性模拟数据不存在系统结构特征时,线性模型预测新对象的性能优于回归树模型,当非线性模拟数据不存在系统结构特征时,回归树模型预测新对象的性能优于线性模型,与前述情况一致。而对于系统结构数据,RE-EM回归树模型预测新对象的性能始终最优。综合各种情况,RE-EM回归树模型预测新对象的性能较好。结论:对于系统结构数据,RE-EM回归树模型能够有效地识别预测变量间潜在的联系,提高模型的拟合效果,体现了RE-EM回归模型在系统结构数据中的适用性与可行性。从回归树模型的建模过程中可以看出,与线性模型相比,树模型是由根节点到终端节点的路径组成,类似于人的决策形式,其结果直观简洁具有较强的解释性。在本研究中,通过模拟实验和慢乙肝抗病毒疗效评估,验证了RE-EM回归树模型对于医学系统结构数据分析的有效性。RE-EM回归树模型对于系统结构数据的拟合效果及预测性能均优于CART回归树模型。对于线性系统结构数据,RE-EM回归树模型预测新对象的性能接近甚至优于混合线性模型。