基于类别不平衡与机器学习方法的弥漫大B细胞淋巴瘤患者复发风险预测模型研究

来源 :山西医科大学 | 被引量 : 1次 | 上传用户:luote51499
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:弥漫性大B细胞淋巴瘤(DLBCL)是最常见的非霍奇金淋巴瘤,目前主要使用R-CHOP作为标准化疗方案,但仍有30%到50%的患者因耐药复发。患者复发后因缺乏有效的治疗方案生存率较低,能准确预测患者的复发风险并提供有效的巩固化疗方案已成为临床医生亟待解决的重要问题。其中疾病成因错综复杂、数据中的类别不平衡问题均导致现有模型分类性能较弱、适用患者有限等问题,故本研究旨在使用机器学习方法构建准确率较高、适用性较强的DLBCL患者复发风险预测模型,为临床治疗方案制定提供参考。方法:为提升模型准确率,联合9种类别平衡方法、2种机器学习方法、logistic回归方法与4种集成学习方法形成共48种建模方案。为提升模型适用性,首先使用以上方案分别12个存在类别不平衡问题的公共数据库构建分类与概率预测模型,对后者采用Platt scaling进行概率校准;其次评价模型性能并绘制随着数据类别不平衡率变化建模方案性能变化图谱;随后应用图谱为经变量筛选后的DLBCL患者达到完全缓解后的复发数据库挑选5套备选建模方案建模;最后选取其中模型性能评价指标最高者作为患者两年、三年与五年内复发风险分类与概率预测模型。结果:(1)根据模拟研究中对联合集成学习(Adaboost同型集成,随机森林,平均投票和Stacking异型集成等四种方法)、重采样(SMOTE,RACOG,DBSM和FCMSMT等四种方法)和代价敏感等三大类共9种类别平衡方法、C5.0决策树与支持向量机等两种机器学习方法、传统logistic回归方法与4种集成学习方法形成共48种建模方案绘制的图谱,其中使用未平衡数据、使用SMOTE采样数据、使用RACOG采样数据、添加代价敏感矩阵的Stacking集成模型与使用RACOG采样数据构建的随机森林模型等5个方案在所有建模方案性能排序前五。(2)使用logistic、用于变量筛选的随机森林(VSURF)与LASSO等三种变量筛选方法对患者两年、三年及五年内复发数据进行变量筛选后,疾病等级、是否患乙型肝炎(HBV)、Ki-67、是否生发中心来源淋巴瘤(GCB)、上呼吸道感染等5个变量是9个数据库的共同变量,是患者复发的独立危险因素。(3)使用未平衡数据构建的Stacking异型集成模型在DLBCL患者两年内(分类模型中准确率=0.9129,灵敏度=0.9073,F值=0.9132,AUC=0.9129,G-means=0.9129;概率模型中AUC=0.9710,RMSE=0.2798,MXE=0.2796,Cal mean=0.0112,BS1=0.0817,BS0=0.0756,BSall=0.0783)、三年内(分类模型中准确率=0.9132,灵敏度=0.8684,F值=0.9086,AUC=0.9132,G-means=0.9115;概率模型中AUC=0.9578,RMSE=0.2651,MXE=0.2512,Cal mean=0.0227,BS1=0.0992,BS0=0.0418,BSall=0.0703)与五年内(分类模型中准确率=0.9134,灵敏度=0.8762,F值=0.9098,AUC=0.9134,G-means=0.9125;概率模型中AUC=0.9597,RMSE=0.2627,MXE=0.2524,Cal mean=0.0234,BS1=0.0951,BS0=0.0413,BSall=0.0690)的复发风险预测模型中均最优。结论:(1)使用VSURF进行变量筛选后,构建的风险预测模型性能较优。(2)疾病等级、HBV、Ki-67、GCB与上呼吸道感染等5个变量是DLBCL患者的两年、三年与五年内复发模型的共同变量。(3)根据建模方案图谱选择的5种方案中,使用未平衡数据构建的Stacking异型集成模型构建DLBCL患者的两年、三年与五年内复发风险预测模型。
其他文献
票据融资因其具有融资成本低、审批简便、流动性强等特点,受到银行和企业的青睐,得以迅猛的发展。本文从青海省票据融资发展现状入手,对票据融资增长的机理进行了深入研究,同
大气CO2浓度升高使得水体碳酸盐体系改变,从而影响水中浮游植物。微藻作为水中初级生产力,由于可以产生多种代谢物质而被认为具有良好的商业应用前景。微拟球藻、杜氏盐藻、
实现十九大提出的加快建设创新型国家战略,促进我国产业迈向全球价值链中高端,提高企业国际竞争力,就必须大力推进创新型企业建设。目前,我国创新型企业群体成长整体势头良好
信息技术在日常教学中的应用已是一种趋势,传统教学手段显现出的弊端更加突出,本文以高职财务会计课程中的库存现金清查为例,探讨在教学设计中合理利用信息化教学手段,整合教
人们大部分的生活和工作时间呆在室内环境,室内空气品质的好坏将直接或间接影响人体的健康。一些国家或地区的室内空气质量标准均对PM2.5浓度以及重金属元素含量提出了限定。
<正> 一、乡土音乐进课堂的大趋势 1995年12月在广州召开第六届国民音乐教育改革研讨会上,就已经提出“以中华文化为母语,充分发挥音乐教育在国民素质教育中的积极作用” 的
城市化是中国经济社会发展的客观要求 ,农村剩余劳动力向城市转移是城市化的必然结果 ;目前中国的城市化水平滞后于工业化水平 ,城市化水平滞后严重制约中国经济和社会的协调
【目的】评价吉非替尼联合立体定向放射治疗对Ⅲ期非小细胞肺癌的疗效。【方法】我科89例患者经病理证实均为腺癌,随机分为2组,治疗组47例,对照组42例。治疗组采用SGS-Ⅰ型超
公司必须承担社会责任是我国新《公司法》的要求。目前我国正处于食品安全风险高发期和矛盾凸显期。企业是食品安全第一责任人。企业作为社会公民,应该担当起对消费者的社会
认知负荷理论是从工作记忆的容量有限性出发,认为工作记忆中的信息加工存在着三个方面的认知负荷:内在认知负荷、外在认知负荷和相关认知负荷。多媒体软件的设计要以学习者的