随机效应-最大期望回归树模型在医学系统结构数据中的应用及模型评价

来源 :广东药科大学 | 被引量 : 0次 | 上传用户:dyoyo90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:在医学研究中,对于存在系统结构特征的实际资料,往往采用混合线性模型进行效应估计,但是对于进一步探索患者亚组与治疗方式间复杂的(高阶)交互作用时则效率较低。而决策树模型作为数据挖掘方法中的一种预测模型,具有较强的探索性能,可以同时分析多个预测变量,并且可以自动检测预测变量之间潜在的关系,对于医学疗效评价具有重要的意义。但是对于系统结构数据,传统CART回归树模型估计效率低下,模型构建准确性较低,偏倚较大。因此提高回归树模型的拟合效果及预测性能是将其应用在医学系统结构数据的重要前提。随机效应-最大期望回归树模型(Random Effect-Expectation Maximization Regression Tree,RE-EM)基于回归树模型和混合线性模型的思想,将随机效应从系统结构数据中分离出来,从而提高回归树模型构建的准确性与预测性能。本研究旨在介绍并验证随机效应-最大期望回归树模型的原理,并通过模拟实验与传统CART回归树模型进行横向对比。同时,基于慢性乙型肝炎初治患者诊疗的真实数据进行实证分析及模拟实验,进一步评价RE-EM回归树模型在不同数据结构下的拟合效果及预测性能,为更精准的医学疗效评价和回归树模型构建提供方法学支持和模型选择,为患者诊疗和干预提供方法学建议。方法:第一部分,设置随机效应及残差协方差结构,生成三个终端节点的回归树模型模拟数据,分别拟合RE-EM回归树模型与CART回归树模型,进而评价两种回归树模型在准确性和偏倚方面的优劣,验证RE-EM回归树模型对拟合系统结构数据的适用性。第二部分,基于临床HIS数据中的慢性乙型肝炎初治患者的抗病毒治疗信息,分别拟合一般线性模型、混合线性模型、CART回归树模型以及RE-EM回归树模型,进行抗病毒疗效评估。第三部分,基于四种模型的慢乙肝抗病毒疗效分析结果,探索不同参数(样本量、时间点、残差相关性、底层模型)条件下,RE-EM回归树模型的拟合效果及预测性能。如设定研究对象样本量为50、100、200、500、1000,对应时间点10、20、50、100。预测性能评价分为两部分:(1)预测研究对象新观测,以研究对象前70%的观测作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价;(2)预测新研究对象,以70%的研究对象作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价。结果:第一部分结果显示,在模型构建的准确性和拟合偏倚上,RE-EM回归树模型的表现优于CART回归树模型。在不同数据结构下,RE-EM回归树模型均能准确构建假定的回归树模型,而CART回归树模型对于系统结构数据的拟合效果则不理想,MSE值较大,无法准确构建假定的回归树模型。第二部分结果显示,在拟合适配度和偏倚上,混合线性模型的表现优于一般线性模型。在基于一般线性模型的慢乙肝患者疗效分析中,时依性ALT水平对结局定量HBV DNA检测值的影响差异有统计学意义,而考虑了随机效应及残差协方差结构的混合线性模型则无该关系。在回归树模型的分析中,RE-EM回归树模型的MSE值最小,为0.8048,低于一般线性模型、混合线性模型及CART回归树模型。第三部分结果显示,在模型拟合效果评价中,当线性模拟数据不含随机效应时,线性模型拟合效果优于回归树模型,而对于非线性数据,回归树模型的拟合效果则明显优于线性模型,其中RE-EM回归树模型的拟合效果与CART回归树模型相近。当模拟数据为系统结构数据时,混合线性模型与RE-EM回归树模型的拟合效果相近,优于一般线性模型和CART回归树模型。综合各种情况,RE-EM回归树模型拟合效果较好,优于CART回归树模型。在模型预测新观测的性能评价中,对于具有系统结构特征的线性模拟数据,线性模型预测新观测的性能明显优于回归树模型,其中RE-EM回归树模型的预测性能优于CART回归树模型。对于具有系统结构特征的非线性模拟数据,RE-EM回归树模型与混合线性模型预测新观测的性能最优,明显优于CART回归树模型,一般线性模型拟合效果最差。综合各种情况,RE-EM回归树模型预测新观测的性能较好,优于CART回归树模型。在模型预测新对象的性能评价中,当线性模拟数据不存在系统结构特征时,线性模型预测新对象的性能优于回归树模型,当非线性模拟数据不存在系统结构特征时,回归树模型预测新对象的性能优于线性模型,与前述情况一致。而对于系统结构数据,RE-EM回归树模型预测新对象的性能始终最优。综合各种情况,RE-EM回归树模型预测新对象的性能较好。结论:对于系统结构数据,RE-EM回归树模型能够有效地识别预测变量间潜在的联系,提高模型的拟合效果,体现了RE-EM回归模型在系统结构数据中的适用性与可行性。从回归树模型的建模过程中可以看出,与线性模型相比,树模型是由根节点到终端节点的路径组成,类似于人的决策形式,其结果直观简洁具有较强的解释性。在本研究中,通过模拟实验和慢乙肝抗病毒疗效评估,验证了RE-EM回归树模型对于医学系统结构数据分析的有效性。RE-EM回归树模型对于系统结构数据的拟合效果及预测性能均优于CART回归树模型。对于线性系统结构数据,RE-EM回归树模型预测新对象的性能接近甚至优于混合线性模型。
其他文献
WENO格式作为一类重要的数值离散方法一直备受重视,在包含激波和复杂流动现象的模拟中有着广泛的应用,例如大涡模拟(LES)和流场的直接数值模拟(DNS),计算气动声学(CAA-Comput
变分不等式为数学、管理科学及经济学等科研领域中的很多问题提供了一个统一的模型,很多问题都可以写成变分不等式的形式.变分不等式作为一种问题的表述模式,在数学规划中占
复合材料网格结构因在相同的轴压载荷下具有很高的减重优势和损伤容限,而在航空航天领域有越来越广泛的应用。但随着工艺的发展和预浸料纤维体积分数的提高,网格节点处的纤维堆叠成为需要特别处理的问题。本文研究了铺放-压平工艺和铺放-碾压展宽工艺两种方法来处理节点处的纤维堆叠和凸起,以及两种工艺所造成的纤维弯曲对网格构件的节点刚度和抗失稳能力的影响。(1)运用流变学建立铺放-压平工艺的节点处预浸带变形模型,并
鬼臼亚科(Podohylloideae)隶属于小檗科(Berberidaceae),是一个含有鬼臼毒素等多种药用化学成分的重要抗癌药用植物类群,其包含4个属:八角莲属(Dysosma)、桃儿七属(Sinopodophyllum)、足叶草属(Podophyllum)和山荷叶属(Diphylleia)。但是迄今为止我们尚不清楚鬼臼亚科叶片化合物的种类和含量,更不清楚遗传与环境因素如何影响叶片化合物含量
随着我国经济持续发展,股票市场规模不断壮大,股票市场在改善拓宽企业融资结构、优化资源配置以及分散市场风险等方面发挥着重要的作用。但是股票市场本身所具有的波动性也对经济发展产生不小影响,适度的波动将促进经济发展,而剧烈的波动将会引发不同程度的风险。2015年中国两会产生的诸多议题成为A股市场的炒作焦点,诸多概念股脱颖而出。同时网络借贷这一新型的互联网金融模式近年来在我国发展迅速,因此相应的网贷概念股
扬子鳄(Alligator sinensis)是我国特有的淡水鳄,被IUCN列为极危物种。在科研和工作人员努力下,保护区扬子鳄的数量不断增加。染色体结构与功能和分子标记的定位研究却相对较
随着无线浪潮的推进,移动端应用迭代迅速,移动开发技术面临着更高的挑战。传统的Native开发模式已无法满足业务的需要,无线端对动态化能力的需求与日俱增,各大互联网公司都纷
本文的目标是得到三维欧式空间中带有不同核函数的几类非局部Allen-Cahn方程的解的一维对称性结果。首先考虑三维欧式空间中带有紧支集核函数的非局部算子对应的非局部Allen-
本文采用形态特征、生理生化特征、化学分类特征、16S rRNA基因序列系统发育分析和分子分类特征相结合的多相分类方法对分离自红树林环境的稀有放线菌菌株210417进行分类学研
人类的语言有着多种功能,比如:分类、总结、归纳等功能,“比较”和上述三种功能一样是语言基本的功能之一。“比较”又可分为平比、差比。虽然俄语、汉语以及韩语这三种语言都有表达“差比”的手段,但他们之间既有相同之处,又有不同之处。因此,本文将运用对比语言学的理论、邦达尔科的三角形框架理论,利用功能语言学的从“意义-形式”的原则、共时对比原则,使用俄罗斯国家语料库,北京大学中国语言研究中心建立的CCL语料