基于类别不平衡与机器学习方法的弥漫大B细胞淋巴瘤患者复发风险预测模型研究

来源 :山西医科大学 | 被引量 : 1次 | 上传用户：luote51499

【摘要】

：

【作者】

：

王蕾

【出处】

：

山西医科大学

【发表日期】

：

2020年01期

【关键词】

：

弥漫大B细胞淋巴瘤类别不平衡数据机器学习概率校准

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的:弥漫性大B细胞淋巴瘤(DLBCL)是最常见的非霍奇金淋巴瘤,目前主要使用R-CHOP作为标准化疗方案,但仍有30%到50%的患者因耐药复发。患者复发后因缺乏有效的治疗方案生存率较低,能准确预测患者的复发风险并提供有效的巩固化疗方案已成为临床医生亟待解决的重要问题。其中疾病成因错综复杂、数据中的类别不平衡问题均导致现有模型分类性能较弱、适用患者有限等问题,故本研究旨在使用机器学习方法构建准确率较高、适用性较强的DLBCL患者复发风险预测模型,为临床治疗方案制定提供参考。方法:为提升模型准确率,联合9种类别平衡方法、2种机器学习方法、logistic回归方法与4种集成学习方法形成共48种建模方案。为提升模型适用性,首先使用以上方案分别12个存在类别不平衡问题的公共数据库构建分类与概率预测模型,对后者采用Platt scaling进行概率校准;其次评价模型性能并绘制随着数据类别不平衡率变化建模方案性能变化图谱;随后应用图谱为经变量筛选后的DLBCL患者达到完全缓解后的复发数据库挑选5套备选建模方案建模;最后选取其中模型性能评价指标最高者作为患者两年、三年与五年内复发风险分类与概率预测模型。结果:(1)根据模拟研究中对联合集成学习(Adaboost同型集成,随机森林,平均投票和Stacking异型集成等四种方法)、重采样(SMOTE,RACOG,DBSM和FCMSMT等四种方法)和代价敏感等三大类共9种类别平衡方法、C5.0决策树与支持向量机等两种机器学习方法、传统logistic回归方法与4种集成学习方法形成共48种建模方案绘制的图谱,其中使用未平衡数据、使用SMOTE采样数据、使用RACOG采样数据、添加代价敏感矩阵的Stacking集成模型与使用RACOG采样数据构建的随机森林模型等5个方案在所有建模方案性能排序前五。(2)使用logistic、用于变量筛选的随机森林(VSURF)与LASSO等三种变量筛选方法对患者两年、三年及五年内复发数据进行变量筛选后,疾病等级、是否患乙型肝炎(HBV)、Ki-67、是否生发中心来源淋巴瘤(GCB)、上呼吸道感染等5个变量是9个数据库的共同变量,是患者复发的独立危险因素。(3)使用未平衡数据构建的Stacking异型集成模型在DLBCL患者两年内(分类模型中准确率=0.9129,灵敏度=0.9073,F值=0.9132,AUC=0.9129,G-means=0.9129;概率模型中AUC=0.9710,RMSE=0.2798,MXE=0.2796,Cal mean=0.0112,BS1=0.0817,BS0=0.0756,BSall=0.0783)、三年内(分类模型中准确率=0.9132,灵敏度=0.8684,F值=0.9086,AUC=0.9132,G-means=0.9115;概率模型中AUC=0.9578,RMSE=0.2651,MXE=0.2512,Cal mean=0.0227,BS1=0.0992,BS0=0.0418,BSall=0.0703)与五年内(分类模型中准确率=0.9134,灵敏度=0.8762,F值=0.9098,AUC=0.9134,G-means=0.9125;概率模型中AUC=0.9597,RMSE=0.2627,MXE=0.2524,Cal mean=0.0234,BS1=0.0951,BS0=0.0413,BSall=0.0690)的复发风险预测模型中均最优。结论:(1)使用VSURF进行变量筛选后,构建的风险预测模型性能较优。(2)疾病等级、HBV、Ki-67、GCB与上呼吸道感染等5个变量是DLBCL患者的两年、三年与五年内复发模型的共同变量。(3)根据建模方案图谱选择的5种方案中,使用未平衡数据构建的Stacking异型集成模型构建DLBCL患者的两年、三年与五年内复发风险预测模型。

其他文献

青海省票据融资增长分析

票据融资因其具有融资成本低、审批简便、流动性强等特点,受到银行和企业的青睐,得以迅猛的发展。本文从青海省票据融资发展现状入手,对票据融资增长的机理进行了深入研究,同

期刊

票据融资增长机理对策建议

水体酸化对几种微藻显微结构和营养成分的影响

大气CO2浓度升高使得水体碳酸盐体系改变,从而影响水中浮游植物。微藻作为水中初级生产力,由于可以产生多种代谢物质而被认为具有良好的商业应用前景。微拟球藻、杜氏盐藻、

学位

水体酸化微藻显微结构脂肪酸氨基酸转录组

创新型企业成长要素协同与成长绩效研究

实现十九大提出的加快建设创新型国家战略,促进我国产业迈向全球价值链中高端,提高企业国际竞争力,就必须大力推进创新型企业建设。目前,我国创新型企业群体成长整体势头良好

学位

创新型企业企业成长成长要素成长绩效协同

高职会计信息化教学设计探究——以库存现金清查为例

信息技术在日常教学中的应用已是一种趋势,传统教学手段显现出的弊端更加突出,本文以高职财务会计课程中的库存现金清查为例,探讨在教学设计中合理利用信息化教学手段,整合教

期刊

高职财务会计信息化教学库存现金清查

株洲市住宅室内PM2.5污染水平及来源解析研究

人们大部分的生活和工作时间呆在室内环境,室内空气品质的好坏将直接或间接影响人体的健康。一些国家或地区的室内空气质量标准均对PM2.5浓度以及重金属元素含量提出了限定。

学位

PM2.5污染水平重金属元素源解析健康风险评价

挖掘乡土资源弘扬民族音乐——谈如何把乡土器乐引进高师音乐教育专业课堂教学

<正> 一、乡土音乐进课堂的大趋势 1995年12月在广州召开第六届国民音乐教育改革研讨会上,就已经提出“以中华文化为母语,充分发挥音乐教育在国民素质教育中的积极作用” 的

期刊

高师音乐教育专业文枕琴南音琵琶音乐传统民族器乐曲

中国城市化进程中的农民工问题

城市化是中国经济社会发展的客观要求 ,农村剩余劳动力向城市转移是城市化的必然结果 ;目前中国的城市化水平滞后于工业化水平 ,城市化水平滞后严重制约中国经济和社会的协调

期刊

城市化农村剩余劳动力转移农民工

吉非替尼联合立体定向治疗Ⅲ期非小细胞肺癌疗效观察

【目的】评价吉非替尼联合立体定向放射治疗对Ⅲ期非小细胞肺癌的疗效。【方法】我科89例患者经病理证实均为腺癌,随机分为2组,治疗组47例,对照组42例。治疗组采用SGS-Ⅰ型超

期刊

吉非替尼立体定向放疗非小细胞肺癌

食品安全与企业社会责任的法律思考——兼论三鹿毒奶粉事件

公司必须承担社会责任是我国新《公司法》的要求。目前我国正处于食品安全风险高发期和矛盾凸显期。企业是食品安全第一责任人。企业作为社会公民,应该担当起对消费者的社会

期刊

法律思考食品安全企业社会责任三鹿毒奶粉

认知负荷理论在多媒体软件设计中的应用分析

认知负荷理论是从工作记忆的容量有限性出发,认为工作记忆中的信息加工存在着三个方面的认知负荷:内在认知负荷、外在认知负荷和相关认知负荷。多媒体软件的设计要以学习者的

期刊

认知负荷理论多媒体软件设计

基于类别不平衡与机器学习方法的弥漫大B细胞淋巴瘤患者复发风险预测模型研究

与本文相关的学术论文