基于机器学习的恶性肿瘤人群营养不良评价新策略开发与验证

来源 :中国人民解放军陆军军医大学 | 被引量 : 0次 | 上传用户:cyuch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景和研究目的营养不良是影响人类健康的主要公共卫生问题以及临床常见病理状态。在所有的疾病人群中,恶性肿瘤由于其慢性消耗性特点导致营养不良问题突出。频发的营养不良对肿瘤患者的负面影响是多方面的,包括引起抗肿瘤治疗耐受性降低,疗效下降,术后并发症率上升,生活质量与体能下降以及生存时间缩短等。据估计,最高约有40%的肿瘤死亡是营养不良直接导致。因此,营养不良是需要积极应对的肿瘤多学科治疗关键问题之一。但是,目前临床上对肿瘤患者的营养状况关注不够,营养不良诊断率低,主要原因之一是没有统一规范的营养不良诊断标准。欧洲肠外肠内营养学会近期发布了全球领导人营养不良倡议(Global Leadership Initiative on Malnutrition,GLIM),GLIM标准整合了国际上主流临床营养学会专家共识(包括中国临床营养专家)与现有最佳研究证据,有望统一全球营养不良的诊断。GLIM分为表型标准(含三个亚标准:低体质指数,体重下降和肌肉量降低)和病因标准(摄食或消化吸收功能下降,以及炎症与疾病负担)。其完整诊断包含三个步骤:营养风险筛查、营养诊断、以及严重程度分级。第一步,使用已验证的营养风险筛查工具对患者进行筛查,筛查阳性的患者需要满足至少一个表型标准和一个病因标准才能被诊断为营养不良。进一步,根据表型标准的严重程度将营养不良分为中度、和重度营养不良。但由于该标准发布时间短,其表型加病因的营养不良评价模式在中国恶性肿瘤人群中的研究较少,且部分评价内容例如肌肉量下降指标与切点有待完善。同时,不同表型标准及严重程度,不同的病因学标准也带来了多样化的诊断组合,给临床上营养不良诊断及其分级操作带来了困难。另外,营养不良是一个多因素复杂性疾病,故评价亦需全面以及多维度。其复杂维度包括体格测量、膳食调查、血液学检查、体成分分析、代谢分析等。评价数据的多样化和复杂性也给营养诊断以及精准营养治疗方案的确定带来了困难。机器学习在处理复杂高维度数据方面相较于传统方法具有显著优势故有望解决上述问题。但目前尚无针对中国恶性肿瘤人群的,基于大数据与机器学习技术开发的营养不良评价策略。现阶段中国恶性肿瘤人群尚缺乏基于真实世界数据开发的营养不良评价策略。针对这一关键问题,本研究拟在验证和优化现有GLIM标准的基础之上,探索,开发与验证适合中国恶性肿瘤人群的营养不良评价策略及相关决策系统,包括:1.明确GLIM标准表型加病因模式用于肿瘤患者营养不良评价与生存预测的价值,为后续营养不良评价新策略的开发提供经验与科学依据。2.分析机器学习相关技术在优化营养不良诊断流程中的价值,为临床实践中营养不良的快速诊断提供决策工具。3.探索GLIM标准在肿瘤患者中应用时需要改进之处,分析潜在缺乏指标是否可以增强GLIM标准诊断营养不良和预测肿瘤患者临床结局的价值。4.整合分析优化GLIM标准的经验,探索基于中国人群数据的营养不良评价新策略。5.开发出早期识别和分级营养不良的模型,为改善肿瘤人群的预后提供决策依据。研究方法1.研究从中国抗癌协会肿瘤营养专委会发起的中国常见肿瘤患者营养状况与临床结局研究队列(中国临床试验注册中心,Chi CTR1800020329)中纳入对象。该队列在全国100余家三甲医院纳入常见的18种恶性肿瘤,目的为调查营养状况与患者临床结局相关性。本课题组作为该队列组长单位目前已纳入患者5000余例。2.连续变量使用均数±标准差或者中位数(四分位数间距)表示,分类变量使用数量(百分比)表示。使用t检验,卡方检验等用于评价研究变量与患者营养相关指标,体能,生活质量以及近期临床结局等变量的关系。使用Kaplan-Meier曲线以及多因素Cox回归分析营养不良与肿瘤生存的相关性并生成列线图模型用于生存预测。使用Logistic回归评价营养不良对肿瘤患者术后并发症的影响。3.随机拆分总体数据的75%以及25%分别用于模型训练和评价。使用基于决策树的机器学习对肺癌以及多肿瘤人群的GLIM诊断流程进行优化与可视化。使用交叉验证确定决策树复杂度参数并进一步用于控制决策树规模并筛选最佳模型。使用混淆矩阵,Kappa指数,准确率与曲线下面积综合评价模型表现。4.使用限制性立方样条分析和Kaplan-Meier生存曲线单因素分析营养不良或营养相关指标与患者生存的关系。使用最优切分法计算营养指标预测患者生存的最佳切点值。使用多因素Cox回归分析研究因素是否是预后独立预后因素。模型变量筛选使用最小绝对值收敛和选择算子方法,基于赤池信息准则或贝叶斯信息准则的双向逐步回归。5.使用无监督机器学习算法聚类分析对营养相关指标进行聚类,并基于多种有监督机器学习算法包括线性回归,决策树,随机森林,支持向量机和深度学习分别构建营养不良预测模型,根据总体以及组平均准确率确定最佳算法。依据准确率,Kappa指数和多分类曲线下面积使用验证数据综合评价模型表现。构建可视化的预测模型以及使用预测模型标记语言生成可跨平台部署的代码以实现模型应用。研究结果1.GLIM诊断的肺癌营养不良发生率为24%。与营养良好组相比,GLIM诊断的中度和重度营养不良组死亡风险分别增加了1.36倍(95%CI=1.12-1.63)和1.47倍(95%CI=1.05-2.05)。趋势性检验表明GLIM诊断的营养不良等级和死亡风险之间存在剂量反应关系(趋势性P=0.002)。包含GLIM的列线图生存预测概率和实际概率之间有较好的一致性(Hosmer-Lemeshow检验无显著统计学意义,总体和验证队列分别为P=0.673和P=0.968)。此外,GLIM列线图在总体和验证队列中的C指数(95%置信区间)分别为0.689(0.659-0.718)和0.702(0.668-0.735)。在食管癌中,主观整体评估量表(Patient-Generated Subjective Global Assessment,PG-SGA)、ESPEN 2015诊断标准和GLIM诊断的营养不良发生率分别为23.1%、12.2%和33.3%。与PG-SGA相比,GLIM诊断营养不良的一致性及95%置信区间为0.803(0.758-0.843)(敏感度=0.795,特异度=0.805,Kappa=0.519,P<0.001)。与ESPEN 2015相比,GLIM诊断营养不良的一致性及95%置信区间为0.761(0.714-0.804)(敏感度=0.886,特异度=0.744,Kappa=0.361,P<0.001)。与PG-SGA相比,ESPEN 2015诊断营养不良的一致性及95%置信区间为0.792(0.746,0.833)(敏感度=0.313,特异度=0.935,Kappa=0.297,P<0.001)。GLIM诊断的营养不良是食管癌患者食管切除术后并发症的独立预测因素(OR=5.00,95%CI=2.79-9.35,P<0.001),其预测能力优于ESPEN 2015以及PG-SGA。2.根据交叉验证的结果,性别、体质指数、六月内体重丢失、六月以上体重丢失、小腿围和体重校正握力最终用于肺癌患者营养不良决策树构建。基于GLIM标准在肺癌患者中开发的决策树模型在验证数据中的准确率分别为0.98(诊断树,Kappa=0.942)以及0.98(分类树,Kappa=0.955)。基于最优切分法获得的肺癌患者握力切点为男<31.2kg和女<22.4kg。多因素Cox回归分析显示低握力组肿瘤患者的死亡风险较高(HR=1.23,95%CI=1.08-1.40),且该切点值对肺癌患者死亡的预测价值优于亚洲肌少症工作组握力切点。多肿瘤中,使用小腿围以及小腿围+握力方法评价肌肉量下降后应用GLIM诊断的营养不良发生率分别为28%和26.5%。小腿围方法诊断的GLIM营养不良(Kappa=0.136)与PG-SGA的一致性略高于小腿围加握力方法(Kappa=0.127)。与肺癌中的结果类似,多肿瘤人群最优决策树模型使用五个变量来构建树,包括年龄、六月内体重丢失、体质指数、小腿围和营养风险筛查(Nutritional Risk Screening 2002,NRS2002)评分。决策树在训练数据中的曲线下面积为0.963(Kappa=0.892,P<0.001,准确度=0.950),而验证数据为0.964(Kappa=0.898,P<0.001,准确度=0.955)。探索性亚组分析表明,决策树模型在不同癌种中表现良好,在14种肿瘤中的曲线下面积均>0.9。敏感性分析表明,决策树在预测营养不良严重程度时比单用NRS2002性能更佳。根据平均下降准确度,决策树中各变量相对重要性的降序排列为:小腿围>体质指数>NRS2002>六个月内体重丢失>年龄。根据平均下降基尼指数,此排名为NRS2002>六个月内体重丢失>体质指数>小腿围>年龄。3.限制性立方样条分析显示小腿围、三头肌皮褶厚度与肿瘤患者总体生存时间呈正相关(P<0.001)。未观察到小腿围或三头肌皮褶厚度与生存的非线性关联(非线性P=0.8327和P=0.8728)。基于最优切分法,小腿围的切点为女性30cm和男性32.8cm,三头肌皮褶厚度为女性21.8mm和男性13.6mm。多因素Cox回归分析显示低小腿围(HR=1.13,95%CI=1.03-1.23)和低三头肌皮褶厚度(HR=1.22,95%CI=1.12-1.32)是肿瘤患者生存的独立危险因素,且存在潜在的合并效应(HR=1.39,95%CI=1.25-1.55)。在肺癌中,与GLIM诊断的营养良好组相比,同时存在营养不良和低三头肌皮褶厚度的患者死亡风险增加54%(HR=1.54,95%CI=1.25-1.88),而与营养不良加正常三头肌皮褶厚度组相比死亡风险增加23%(HR=1.23,95%CI=1.06-1.43)。营养不良联合低三头肌皮褶厚度与单独的营养不良(HR=1.31,95%CI=1.14-1.50)或者单独的低三头肌皮褶厚度(HR=1.39,95%CI=1.20-1.61)相比预后价值更高。在多肿瘤人群中,最优切分法表明脂肪质量指数(Fat mass index,FMI)的最佳阈值为女<5kg/m~2,男<7.7kg/m~2,经切点划分后50%患者被确定为低FMI。在女性中,FMI与年龄(r=0.074)、肿瘤分期(r=-0.063)、NRS2002(r=-0.435)、PG-SGA(r=-0.435)、卡氏评分(r=0.073)和生活质量(r=0.098)显著相关。在男性中,FMI与NRS2002(r=-0.236)、PG-SGA(r=-0.236)、卡氏评分(r=0.082)和生活质量(r=0.113)显著相关,但与年龄或肿瘤分期无关。对于FMI和GLIM交叉分组,低FMI加营养不良(HR=1.93,95%CI=1.48-2.52)、低FMI加营养良好(HR=1.70,95%CI=1.25-2.32)、正常FMI加营养不良(HR=1.50,95%CI=1.10-2.04)组和正常FMI加营养良好组相比,死亡风险均有所增加。另外,脂肪质量指数在多肿瘤中的独立预后价值(C指数=0.585,95%CI=0.563-0.607)高于单纯GLIM诊断的营养不良(C指数=0.555,95%CI=0.533-0.577)模型(P=0.029),且二者在肿瘤预后方面具有潜在合并效应。4.整合GLIM表型病因指标以及脂肪量指标后,采用聚类分析定义的肿瘤人群营养不良发生率为31.6%。并且营养不良聚类是肿瘤生存的独立危险因素(HR=1.38,95%CI=1.22-1.55,P<0.001)。更大样本中的聚类定义了两组患者:第1组8193名患者(58.0%)和第2组5941名患者(42.0%)。热图所反映的营养指标数值显示,第1组与第2组相比整体营养状况较差。第二阶段聚类显示营养不良组最佳聚类数为3个。总人群中GLIM、聚类、PG-SGA评分(≥4)和PG-SGA类别(B+C期)定义的营养不良分别为30.4%、42.0%、52.5%和75.5%。聚类所定义的营养不良介于GLIM和PG-SGA之间。聚类分析与GLIM在所有方法中一致性最高(Kappa=0.561),其他结果包括聚类与PG-SGA类别(Kappa=0.266),GLIM与PG-SGA类别(Kappa=0.203),聚类与PG-SGA评分(Kappa=0.441)以及GLIM与PG-SGA评分(Kappa=0.416)。针对营养不良发生率的亚组分析结果显示:除鼻咽癌患者人群以外,四种方法定义的营养不良发生率与在总体人群中观察到的趋势相似(从低到高:GLIM<聚类<PG-SGA评分<PG-SGA类别)。此外,将不同方法定义的营养不良发生率视为数值,采用Spearman等级相关分析进一步比较了聚类定义的营养不良在不同肿瘤类型间的发生率与其他三种方法的一致性,显示聚类分析的结果与其他方法高度一致(17种肿瘤营养不良发生率的Spearman相关系数:聚类与GLIM,0.965;聚类与PG-SGA评分,0.922;聚类与PG-SGA类别,0.809;P<0.001)。针对第一阶段聚类,营养不良聚类结果与各种反映营养状况受损的指标、NRS2002定义的营养风险、PG-SGA定义的营养不良、GLIM定义的营养不良以及任何营养支持呈正相关关系。此外,聚类定义的营养不良还与体能和生活质量下降呈正相关(P<0.05)。对于近期临床结局,聚类定义的营养不良与30天死亡率、住院时间和费用呈正相关。第二阶段聚类定义的营养不良严重程度与体能和生活质量呈负相关。相反,聚类所定义的营养不良与30天死亡率呈正相关(P<0.05)。进一步的多重比较显示,中度组和重度组的住院时间和费用均高于轻度组(P<0.05)。研究人群在整个随访期间共有3241人死亡,总体的中位生存时间和中位随访时间分别为2485天和1274天。聚类定义的营养不良是肿瘤生存的独立危险因素(以营养良好为参考,轻:HR=1.20,95%CI=1.08-1.34;中:HR=1.63,95%CI=1.50-1.78;重:HR=1.87,95%CI=1.68-2.08)。对四种主要的肿瘤(肺癌、结直肠癌、乳腺癌和胃癌)和其他癌症(剩余13种癌症)患者进行了亚组分析后观察到的关系相似,表明聚类分析定义的营养不良严重程度与死亡风险呈正相关(趋势性检验P<0.05)。对于营养不良识别模型,多元线性回归模型在训练数据中性能表现几乎完美(Kappa=1.000,多分类曲线下面积=1.000),并在验证数据中得到保持(Kappa=0.999,多分类曲线下面积=1.000)。对于营养不良早期识别模型,虽然输入特征有所减少(排除血清学指标),模型在训练数据(Kappa=0.897,多分类曲线下面积=0.934)和验证数据(Kappa=0.905,多分类曲线下面积=0.941)中仍然表现出良好性能。验证数据中的探索性亚组分析进一步表明,该模型在不同肿瘤类型中同样表现良好。对于营养不良识别模型,所有17种肿瘤的多分类曲线下面积均>0.998。对于营养不良早期识别模型,16种肿瘤的多分类曲线下面积>0.9。研究结论基于大样本队列数据,本课题发现GLIM标准表型加病因的营养不良评价模式在中国恶性肿瘤患者中具备可行性。研究获得的肌肉指标切点可为后续营养不良评价提供参考依据。本课题进一步应用机器学习方法改进了基于GLIM的营养不良诊断流程,并强调了脂肪量在肿瘤人群营养不良评价中的价值。通过整合GLIM相关指标以及脂肪量指标,课题基于机器学习开发了营养不良融合决策系统,实现了营养不良的检出、分级与分型功能。以上结果有望为肿瘤人群营养不良评价提供科学依据与决策工具。
其他文献
传统的搬运机械仅针对特定的任务设计且功能单一,在任务发生变化时,需要花费高昂的经济与时间成本来对现有搬运机械进行改造,制约了制造企业的发展。此外,在物料搬运的某些特殊场景,例如对定位精度高、柔性操作装配、末端的上下料等,无法避免需要人的介入,而重复的搬运作业会导致工人的肌肉损伤。本文围绕:研制一种满足可定制与灵活性的搬运机械、在较小外驱动力下实现重物的随位平衡,这两点进行了如下研究:根据功能需求,
“天下”作为表征中国传统世界秩序观的术语已得到普遍使用,但像俄罗斯这样在两个多世纪里持续把中国称为“Поднебесная”(天下)的国家却是少见的。俄罗斯的“天下”形象是19世纪东西方文明交融与碰撞的产物。1820年前后,中国自称“天朝”的消息在西欧社会流传开来。帝俄在谋求领土扩张和寻求独特文明身份的历程中,共享了西方基于贸易利益和西方文明观而创造的野蛮傲慢的“天朝”形象,但未全盘接受西方将华夷
非洲猪瘟对我国生猪产能影响较大,生猪稳产保供,促进养殖结构转型升级,是我国当前经济工作的一件大事。生猪生产恢复,已被纳入“菜篮子”市长负责制,促使各地加快生猪规模化养殖场建设。在相同的品种、饲料、饲喂方式等条件下,猪舍养殖环境在养猪生产过程具有重要作用。本文通过理论计算,构建集约化猪舍养殖环境传热模型;开发基于WSN的猪舍环境监测系统,提取集中通风式猪舍养殖环境因子时空分布特征信息,建立基于时间序
普惠金融对促进经济高质量发展、实现共同富裕有着重要的现实意义。在这一大背景下,普惠金融发展成为党和国家政策关注的重点。2016年国务院印发了《推进普惠金融发展规划(2016—2020年)》,作为我国首个普惠金融国家级战略规划,它表明了党和国家建立并完善普惠金融体系的坚定决心。2021年财政部出台了《商业银行绩效评价办法》,绩效评价不再局限于盈利性指标,这表明监管机构愈发重视商业银行绩效。然而,在十
期刊
高含量纳米掺杂易团聚导致空间电荷积聚、电场畸变,从而降低材料的绝缘性能。为了提升高含量纳米颗粒在基体中的分散性,采用等离子体对纳米氧化铝表面进行处理,制备了纳米氧化铝质量分数10wt%的环氧树脂纳米复合材料,利用扫描电子显微镜对颗粒的分散性进行表征,采用高温空间电荷测量装置和电导电流测试系统研究了不同温度阶梯式升压下试样的电荷动力学特性。结果表明,等离子体处理能有效抑制高含量纳米氧化铝的团聚。高温
本文在夏季对上海地区的50个住户进行了为期2周的干预性实验以研究开/关门窗对卧室环境和人员睡眠质量的影响。对卧室二氧化碳(CO2)浓度、温度、湿度、PM2.5浓度等环境参数进行连续监测,并对夜间人员睡眠质量进行连续测量。结果表明,与关门和窗相比,开门或窗条件下睡眠期间卧室内的CO2浓度显著下降,室内PM2.5浓度有一定增加,快速眼动睡眠时长显著下降,总睡眠时长也有所下降。CO2浓度和PM2.5浓度
我国历史悠久,全国范围内遗存有大量的砖石古建筑,这类古建筑年代久远且大多为国家重点文物保护单位,具有很高的人文价值,其中相当一部分建筑年久失修,面临修复。为研究诱导碳酸钙沉淀技术对古建筑砖石修复效果与机理,以开封古城墙砖为研究对象,采用灌浆的方法对古建筑砖石裂缝进行了修复,通过系统的室内试验,探索脱脂奶粉对于诱导碳酸钙沉淀技术的改良,比选MICP与EICP对砖石抗折强度修复效果,选出MICP技术并
在全球竞争中,作为“软实力”的国家形象对于掌握国际舆论话语权、参与国际博弈和保障国家利益至关重要。但自近代以来,中国形象的构建主要按照西方的意志来推测、衡量和判断。在中西方的两元对立中,西方国家不但不可能将自己通过强大舆论机器打造的“软实力”拱手相让,还会通过在舆论战中塑造积极的“自我”和消极的“他者”形象,维持对中国形象塑造的控制权。对近现代以来,包含西方社会在内的其他区域视野下的中国形象进行横
前庭功能测评是眩晕类疾病诊疗康复的关键环节,眼震分析是前庭功能测评的主要途径。前庭性眼震主要是三对半规管系统损伤后的综合权重,可呈水平、扭转、斜向等方向特征。与传统检测技术相比,三维视频眼震视图技术(three-dimensional videonystagmograph,3D-VNG)可将眼震或眼球运动分解为水平、垂直、扭转三个分量,为解析眼震的病理生理特征及临床眩晕类疾病诊疗提供更客观支持。本