论文部分内容阅读
肝纤维化是一种严重影响患者生存质量、危害患者身体健康的慢性肝脏疾病,在肝纤维化前期F0,F1(,F2),肝脏损伤症状不会很明显地在患者体征上表现出来,到了病理特征相对明显的纤维化后期(7)F3,F4(8)往往会错失肝纤维化治疗的最佳时期。而用来判断肝纤维化分期的、最具医学权威的肝穿刺活检法,由于创伤性和高成本等缺点,无法重复实施,导致治疗效果很难跟进。随着抗病毒类药物在临床上得到越来越多的应用,特别是核苷酸类药物在纤维化的逆转方面发挥出越来越显著的作用,迫切需要建立一个安全无害、准确率高且在临床中易反复实施的诊断方法,从而根据病人的常规检查指标,挖掘患者的肝纤维化损伤程度,这将对整个肝纤维化疾病的进程产生积极深刻的影响。于是本文提出了一种诊断肝纤维化分期的方法——基于集成学习的无创诊断算法。本文选用决策树、随机森林、梯度提升、AdaBoost、极端随机树、K近邻、支持向量机等多个分类器组合在一起得到一个集成学习分类器,利用这个模型对数据样本进行训练学习和预测判别。本研究采集的肝纤维化病患的病例样本数据来自上海三家医院进行肝穿刺活检术的患者,这些患者的血清检测指标作为本研究的属性特征,包括性别,年龄,体重,身高,身高平方,体重指数,Fibroscan,WBC,Plt,Tbil,GGT,AST,ALT,ALP,ALB,胆固醇,INR,PⅢP,IV-C,层黏连蛋白,门脉内径等共24项指标。数据样本一共有五个类别,分别为F0、F1、F2、F3和F4,于是我们根据肝纤维化的严重程度,将F0和F1记为无明显纤维化类,F2、F3和F4记为明显纤维化类,并将F0、F1、F2、F3记为无肝硬化类,F4记为肝硬化类,于是对有无明显纤维化和有无肝硬化两个数据集进行训练、预测及对比分析,得出如下结论:(1)在肝纤维化数据集的实验中,与单学习器相比,集成学习模型的判别准确率和稳定性要好一些,比疾病诊断领域常用的随机森林和支持向量机模型的准确率提高了约3个百分点。(2)临床数据应用显示,机器学习集成模型可以有效识别肝纤维化的显著程度,对明显纤维化和肝硬化的预测准确率可达到95.96%和96.45%,经过进一步临床试验验证后可以考虑借鉴使用。