基于SMOTE算法和随机生存森林的弥漫大B细胞淋巴瘤预后预测模型研究

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:yy20092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:弥漫大B细胞淋巴瘤(DLBCL)是一种血液恶性肿瘤,具有明显的异质性,可以侵袭不同年龄段的患者,且患者的临床表现各异。尽管目前的标准治疗方案已经显著改善了患者的预后,但是仍有部分患者预后较差,这些患者的生存仍面临较大威胁。国际预后指数(IPI)是国际通用的评估DLBCL患者预后的指标,但是有研究表明即使IPI相同的DLBCL患者其预后也存在很大的差异。所以有必要利用生存数据建立一个准确度较高的DLBCL患者预后预测模型,由于影响DLBCL的因素错综复杂,数据中存在类别不平衡、复杂非线性关系、非比例风险假定等问题,所以本研究旨在使用SMOTE数据平衡算法和随机生存森林(Random survival forest,RSF)构建DLBCL预后预测模型,尽早识别高危和低危患者,为临床医生为患者制定特定的治疗方案提供参考。方法:首先基于五种常用的具有不同删失比例的公共生存数据库,分别构建经过SMOTE和随机过采样平衡数据后的Cox比例风险回归模型(Cox proportional hazards regression,CPH)、RSF模型、Cox-nnet模型、Nnet-survival模型,并分别与数据平衡前的模型进行比较,探索数据平衡方法对上述四个模型性能的影响。然后应用单因素Cox回归并参考相关文献,筛选用于构建DLBCL预后预测模型的变量。最后分别使用SMOTE、随机过采样方法平衡数据,再分别构建DLBCL的CPH、RSF、Cox-nnet、Nnet-survival模型,并分别与数据平衡前的模型进行比较,选出对于DLBCL来说性能相对较优的模型,并通过变量重要性排序分析对DLBCL预后预测影响较大的因素。结果:(1)共筛选出19个变量用于构建DLBCL预后预测模型,其中由RSF和Cox-nnet输出的变量重要性排序中,共同排在前5位的变量为疾病等级、LDH、KPS、?2-MG、肿瘤直径。(2)对于lung数据来说,经过SMOTE平衡数据后的RSF模型性能最优,经过SMOTE平衡数据后的RSF模型性能提升了19.6%,在所有模型中性能提升最多;对于pharyhx数据来说,经过SMOTE平衡数据后的RSF模型性能最优,经过SMOTE平衡数据后的RSF模型性能提升了12.8%,在所有模型中性能提升最多;对于wpbc数据来说,经过随机过采样平衡数据后的Cox-nnet模型性能最优,经过随机过采样平衡数据后的Cox-nnet模型性能提升了15.6%,而经过SMOTE和随机过采样平衡数据后的RSF模型性能提升最多,均为21.6%;对于veteran数据来说,经过SMOTE平衡数据后的RSF模型性能最优,经过SMOTE平衡数据后的RSF模型性能提升了19.7%,在所有模型中性能提升最多;对于stagec数据来说,经过SMOTE平衡数据后的RSF模型性能最优,经过SMOTE平衡数据后的RSF模型性能提升了4.8%,在所有模型中性能提升最多。(3)对于DLBCL来说,经过SMOTE平衡数据后的RSF模型性能最优,经过SMOTE平衡数据后RSF模型性能提升了6.8%,在所有模型中性能提升最多。结论:(1)疾病等级、LDH、KPS、β2-MG、肿瘤直径是影响DLBCL患者预后的五个较重要因素。(2)在未平衡数据前,RSF、Cox-nnet、Nnet-survival等机器学习方法的预测准确度高于CPH。经过SMOTE和随机过采样方法平衡数据后:CPH、RSF、Cox-nnet、Nnet-survival模型的预测准确度均有所提高,RSF、Cox-nnet、Nnet-survival等机器学习方法的预测准确度仍高于CPH,RSF的预测准确度又高于Cox-nnet和Nnet-survival;而经过SMOTE算法平衡数据后的预测准确度的提高又高于随机过采样方法。所以SMOTE方法结合随机生存森林的预测性能较优,且其可以解决生存数据中的类别不平衡、复杂非线性、非比例风险假定等问题。(3)对于DLBCL来说,经过SMOTE平衡数据后所构建的RSF模型性能最优。
其他文献
第一部分乳腺导管原位癌伴微浸润腋窝淋巴结转移的超声诊断价值目的:探讨乳腺导管原位癌伴微浸润(DCISM)患者腋窝淋巴结转移(ALNM)的超声诊断价值。方法:收集山西省肿瘤医院2015年1月至2020年12月经手术病理证实的DCISM患者93例,术前均常规行乳腺及腋窝淋巴结(ALN)超声检查,以术后病理科所回报结果为金标准,将ALN分为转移组和未转移组,对超声所显示的两组淋巴结声像图特征等行对比分析
目的:探讨CT征象联合多期相影像组学特征融合模型在局灶性自身免疫性胰腺炎与胰腺癌鉴别诊断中的价值。方法:回顾性收集2012-2020年f-AIP患者73例,PC患者74例的一般临床资料及CT影像图像。首先,由两位放射科医生通过影像资料评价这两个病变的CT形态学征象,并对两者进行鉴别。其次,将显示病灶的所有层面的三期(平扫、动脉期及静脉期)薄层图像以DICOM格式上传至达尔文医准科研平台,在病灶的中
目的:探讨基于T2WI图像的影像组学标签预测直肠癌KRAS基因突变的潜在价值。方法:回顾性分析山西省肿瘤医院2017年4月—2019年4月行盆腔MRI检查并具有KRAS基因检测结果的304例直肠癌患者的临床和影像资料,其中男175例,女129例,中位年龄59.6岁。将患者随机分为训练组(213例)和验证组(91例)。选取每例患者的高分辨率T2WI图像进行图像分割及影像组学特征提取,使用单变量统计分
目的:研究经导管肝动脉化疗栓塞术(TACE)联合CT引导下微波消融术(MWA)与单纯TACE治疗中晚期肝癌的临床疗效和影响预后的相关因素分析。方法:收集我院2015年1月至2018年1月收治的中晚期肝癌病人146例进行回顾性分析,按治疗方案分为TACE联合MWA组(n=72)和TACE组(n=74)。观察两组患者的疗效及相关预后影响因素。结果:TACE联合MWA组客观缓解率(ORR)为88.9%,
目的:通过挖掘MRI图像的影像组学特征,建立多种用于鉴别乳腺小肿块(≤2cm)良恶性的机器学习模型,探讨基于多模态MRI的影像组学方法在鉴别小乳腺癌应用方面的潜在价值。方法:本研究回顾性分析了于我院2017年9月至2020年10月间进行乳腺MRI检查并符合纳入、排除标准的110名乳腺小肿块(最大径≤2cm)患者(共128个小肿块)。收集研究对象MRI各序列T1WI、T2WI、DWI、ADC、DCE
目的:探讨基于剪切波弹性成像(SWE)技术的弹性异质性分析在鉴别诊断乳腺良恶性病灶中的价值,筛选最佳诊断指标。方法:收集自2019年8月至2020年10月于我院就诊患者146例,最终经手术切除或穿刺活检病理证实的乳腺病灶共150个。对所纳入病灶行BI-RADS分类及SWE超声检查,定量测定病灶的弹性模量值,计算SG值,并定性评估病灶弹性图像特征。采用ROC曲线评价定量异质性指标及定性图像分型法的诊
目的:通过Meta分析评估单克隆抗体埃罗妥珠单抗(elotuzumab)对复发/难治性多发性骨髓瘤(relapsed/refractory multiple myeloma,RRMM)的疗效及安全性。方法:运用计算机对Embase、Pubmed、Cochrane Library、web of science、中国知网(CNKI)和万方医学数据库等数据库进行检索,起始时间为数据库建库,截止时间为20
目的:分析乳腺癌肿块的临床资料、超声特征及病理生物学指标与腋窝淋巴结转移的关系,筛选出密切相关危险因素并建立诊断模型。方法:收集2019年4月至2020年12月于我院就诊的乳腺癌患者127例作为研究对象,回顾性分析其术前超声特征、临床资料及术后病理生物学指标。通过单因素分析法筛选临床及病理特征(患者年龄、肿块位置、ER、PR、HER-2、Ki-67、P53、CK5/6、分子分型、组织学等级)、超声
目的:系统的评价miRNA-155对胰腺癌的诊断价值。方法:2名学术工作者通过独立检索万方、知网、维普、pubmed、embase等数据库,根据纳排标准检索出关于miRNA-155对胰腺癌的诊断价值的相关文献,日期截止为2020年12月,提取相关文献资料,采用QUADAS-2系统对所纳入的文献进行质量分析评价,并综合应用stata16、metadisc1.4、review manger5.3软件对
目的:1.检测长链非编码RNA(lnc RNA)LINC01419在人正常肝细胞与肝细胞癌(HCC)细胞中的表达差异。2.探究长链非编码RNA LINC01419对HCC细胞增殖和侵袭能力的影响。方法:1.使用实时定量荧光RT-PCR(q RT-PCR)法检测人正常肝细胞和HCC细胞中LINC01419的表达情况。2.使用q RT-PCR法验证LINC01419干扰效率。3.采用MTT实验和克隆形