论文部分内容阅读
目的
采用H2O平台自动化机器学习(AutoML)算法,收集临床资料及肝癌肿瘤标记物,建立一系列肝细胞癌(HCC)临床诊断模型。
方法本研究纳入130例HCC患者,149例肝硬化患者,102例慢性乙型肝炎患者,体检中心健康人群95人。利用AutoML算法建立针对HCC发病二分类结局的多种机器学习算法模型,计算ROC曲线下面积(AUROC)并建立混淆矩阵来评价模型区分度,并对重要变量进行可视化呈现。
结果最佳模型是基于集成学习,其中占比最大者为梯度提升机(GBM)模型。GBM模型中重要变量包括Dickkopf-1、甲胎蛋白、细胞骨架蛋白4、ALT及AST。变量SHAP图展示了变量在二分类结局中的分布。LIME图呈现了变量在个体预测的作用。集成模型在验证集中特异性为0.986,敏感性为1.000,AUROC为0.991,优于其他单个算法的最佳模型。
结论本研究利用AutoML框架,建立判断HCC发病的机器学习模型,为HCC患病风险筛查提供了新的思路。