随机森林方法在生存资料中的比较研究

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:mm963258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景Cox比例风险回归模型是生存分析中使用最为广泛的方法,然而实际应用中该方法需要满足的前提条件有时不成立,森林算法因其强大的学习能力和灵活性,成为Cox模型的有力替代方法。生存森林方法近年来得到极大发展,具有代表性的包括:随机生存森林(randomsurvival forests,RSF)、条件推断森林(conditional inference forests,CIF)、最大选择秩森林(survival forests with maximally selected rank statistics,MSR-RF)。尽管陆续有学者提出或改进生存森林方法,系统性的比较研究依然很少,其中包含最新MSR-RF方法的仅有一篇,且现有研究大多只从预测能力方面进行比较,未系统比较方法的变量识别能力。目的从变量识别能力和预测能力两方面系统性地研究比较RSF、CIF、MSR-RF这三种森林方法,观察它们应用于不同结构生存数据的优劣,给出使用建议。方法通过蒙特卡罗模拟和实例研究系统性地从变量识别能力和预测能力两方面研究比较RSF、CIF、MSR-RF这三种森林方法,观察它们应用于不同结构生存数据的优劣。其中变量识别能力采用模拟中变量重要性正确排在最前位的比例作为评估指标,该比例越大识别能力越好;预测能力采用积分布莱尔评分(Integrated Brier score,IBS)作为评估指标,该指标越小预测能力越好。结果1.在模型预测能力方面,三种森林方法的IBS始终差距不大,在模拟中RSF在存在多分类变量或小样本时表现弱于其余两者,而实例研究中三者的IBS分布各有优劣。2.在变量识别能力方面,1)在数据存在多分类变量的情况下,RSF的识别率基本最低,MSR-RF和CIF具有更高的识别率,其中CIF在交互项形式下更具有优势。2)在数据只存在连续性变量的情况下,MSR-RF的识别率更高。在数据只存在二分类变量时,RSF和MSR-RF的识别率更高。3)变量的相关程度变化对三种方法的识别率影响均不大。说明三种森林方法能正常处理该类数据。4)变量维度增大时,CIF的变量识别率下降最明显。5)MSR-RF受样本量变化影响最小,表现最稳定;RSF在小样本量时表现欠佳。结论三种生存森林方法在不同结构生存数据下的变量识别能力和预测能力各有优劣,实际应用中应结合研究目的和数据结构选择合适的生存森林方法。与生存森林中常用的RSF方法相比,MSR-RF在数据存在多分类变量尤其是对应分类水平较多、数据均为连续型变量、小样本的情况下占优;CIF在数据存在多分类变量尤其是对应分类水平较多、变量存在交互作用的情况下占优。MSR-RF和CIF具有推广应用的价值。
其他文献
目的:可溶性N-乙基马来酰亚胺敏感因子附着蛋白受体(Soluble N-ethylmaleimide-sensitive factor attachment protein receptors,SNARE)与帕金森病(Parkinson’s disease,PD)密切相关,本课题探究SNARE蛋白家族成员Ykt6与帕金森病的相关性,以及SNARE蛋白Ykt6在帕金森病模型中对自噬-溶酶体通路的作用
荧光分析法是指当荧光物质与分析物相互作用后,其发光特性发生改变,从而实现对分析物的定性分析和定量检测。近年来,荧光分析法由于其操作简便和灵敏度高等优势在生物分析领域中表现出巨大的应用潜力。而金属有机框架(MOFs)材料,特别是荧光金属有机框架(LMOFs)材料因具有可调谐的孔径与尺寸、优异的荧光性能、比表面积大和良好的吸附性等性质,不仅能有效地提高荧光分析的检测灵敏度,而且应用范围较广。因此,本论
研究背景高尿酸血症是嘌呤代谢紊乱引起的代谢异常综合征,近年呈现明显上升和年轻化趋势,是继糖尿病之后又一高患病率的代谢性疾病。至今为止高尿酸血症的治疗尚缺乏足够的重视,现状不容乐观。高尿酸血症的治疗主要包括药物治疗与非药物治疗,药物治疗主要包括黄嘌呤氧化酶抑制剂、促尿酸排泄药物和重组尿酸酶制剂三类,但目前临床使用的药物种类少且多存在应用限制。考虑到高尿酸疾病本身与目前的治疗情况,设计开发针对肾脏尿酸
目的:乳腺癌是长期危害全球女性生命健康的主要疾病之一,据美国癌症协会最新的统计,乳腺癌已超过肺癌成为全球发病数第一的恶性肿瘤。由于乳腺癌具有多种分型,且不同分型中恶性程度、对治疗的敏感性以及预后都存有较大差异,使得乳腺癌的治疗变得十分复杂。近年来,尽管针对乳腺癌的新型联合治疗、分子靶向治疗等手段取得了令人鼓舞的效果,然而现有的治疗手段还存在明显的不足,乳腺癌的发病及死亡人数仍逐年上升。寻找新的抗乳
目的:脑卒中(stroke)是一种急性的脑损伤疾病,主要表现为脑血管病变引起的脑组织损伤及相关神经功能损伤。目前美国食品药品监督管理局(FDA)仅批准组织纤溶酶原激活剂(tPA)用于脑缺血损伤的治疗。因tPA治疗的局限性,所以寻找新的治疗策略尤为重要和迫切。研究表明抑制磷酸二酯酶4(phosphodiesterase 4,PDE4)对脑缺血损伤有保护作用,而且可通过自噬对脑缺血损伤发挥调控作用,但
研究背景:流行性感冒病毒(influenza virus)是影响人类健康最严重的传染病之一,流感的大爆发不但对人民生命安全造成极大损害,而且也严重阻碍社会经济的发展。流感传播速度快、影响范围广、发病率和死亡率高。由于抗原漂移和抗原转移导致目前的疫苗并不能有效的预防新发流感病毒的传播,因此抗流感病毒药物的作用显得尤为重要。目前FDA通过的抗流感药物分别是以金刚烷胺为代表的M2离子通道抑制剂、以奥司他
糖尿病是一种血糖失调的代谢紊乱型疾病,其主要是由于胰岛β细胞自身免疫性损伤导致的胰岛素分泌不足或者胰岛素抵抗而导致机体不能有效地利用胰岛素。目前临床上最广泛用于治疗糖尿病的方法是皮下注射胰岛素,但由于其顺应性差和释放剂量无法准确配合血糖的变化,因此设计出一种能够提高给药顺应性、智能释放胰岛素的给药系统对于糖尿病患者的长期治疗是非常有必要的。本文以3D-树枝状介孔二氧化硅(MSN)为胰岛素INS载体
图像质量评估(Image Quality Assessment,IQA)在计算机断层成像(Computed Tomography,CT)硬件设计、扫描协议优化、图像重建及后处理算法改良等应用中发挥重要的作用。鉴于高/低质量CT图像对在临床实际中难以获取,如何实现无参考IQA(No-reference IQA,NR-IQA)成为该领域的研究重点。然而,因CT图像存在统计特性复杂的噪声以及结构性伪影,
研究背景某市典型水库A是一个具有蓄水灌溉、防洪调蓄、发电等功能的中小型水库。多年以来,典型水库A存在多种影响水质安全的污染源及污染事件,引起了社会各界的广泛关注。因此,对典型水库A进行水环境质量监测,适时掌握其水环境质量现状,为水环境修复工作的有关决策具有重要意义。目前,水环境监测一般采用化学分析法,但化学分析法只能检测出水环境中的污染物种类及其含量,而无法表征水环境污染物对生态环境及人群健康的毒
鼻咽癌是我国广东、浙江等南方地区常见的头颈部恶性肿瘤之一,发病率较高。鼻咽部位于头颅中央,手术路径复杂,医生难以对肿瘤作整块切除。大多数鼻咽癌为低分化鳞癌,对放疗的敏感性较高。所以,放射治疗是鼻咽癌首选的治疗方式。精确的靶区(Gross target volume,GTV)与危及器官(Organs at risk,OAR)勾画,是鼻咽癌放射治疗质量保证的关键。由于鼻咽癌靶区形态复杂,周围危及器官较