论文部分内容阅读
随着医疗水平的提高,终末期肾病患者可以通过肾移植进行治疗,但是术后容易出现感染等并发症,会危及到移植物和患者的存活,因此医生需要给患者安排不定期不定项的检查,以密切观察患者的身体状况,再适量调整免疫抑制剂的用药方案。随着检查次数的增多,电子健康记录数据也与日俱增,电子健康数据往往是不均衡不规则的数据,由于医生在诊断患者病历时需要结合历史病历综合诊断,庞大的数据量、数据之间错综复杂的关系、个体差异性都会给医生诊断增加难度,因此设计肾移植感染预测模型精准预测肾移植术后感染情况以辅助诊疗具有现实意义。然而目前对肾移植感染预测的研究大多集中于医学领域,研究出来的模型具有不智能、基于小规模数据集且非真实数据分布等局限性。随着人工智能与医疗领域的进一步融合,用机器学习的方法预测类似特征的医疗数据集已经有不错的研究成果,因此机器学习技术将成为我们的重要研究方向。本文旨在基于传统机器学习和深度学习分别设计肾移植感染预测模型,并将肾移植数据集上的研究成果推广至具有类似特征的医疗数据集中。本文的主要工作内容如下:1.肾移植数据集的分析以及多场景建模。本文使用的肾移植数据集为医院真实采集的数据集,具有不均衡、不规则、多变量、含缺失值、单点预测、时序长度分布不均的特点,目前暂无特征完全一致的公开数据集。根据肾移植数据集对时间信息的处理,本文分为非时序场景和时序场景进行研究,根据不同场景下肾移植数据集的特点分别建立肾移植感染预测模型。2.非时序场景下基于传统机器学习的肾移植感染预测模型及其推广。针对不均衡、多变量、含缺失值的特点设计了解决数据集不均衡的方法、特征选择方法以及传统机器学习模型的对比实验。实验结果表明均衡后的数据集可以提高模型的预测性能,特征选择的效果受到数据分布和数据量的影响,其中稳定性与预测性能最佳的是SMOTE方法下的未经特征选择的逻辑回归模型,召回率高达75.76%,F1分数高达9.98%。最后将基于传统机器学习的预测框架推广至具有相似特征的Physionet2012数据集中,分类性能最佳的是EasyEnsemble方法下经过特征选择的GBDT模型,召回率为66.71%,F1分数为33.19%。3.时序场景下基于深度学习的肾移植感染预测模型及其推广。针对不均衡的特点,设计了解决数据集不均衡的方法的对比实验;针对多变量、含缺失值、时间间隔不规则、单点预测的特点,提出了优化分类结构的多时间注意力网络(MTAN),并进行了对比实验;针对时序长度分布不均的特点,提出了基于滑动窗口法的MTAN模型,并进行了对比实验。实验结果显示解决数据集不均衡、优化MTAN模型的分类结构以及滑动窗口法都可以提升MTAN模型的感染预测能力,效果最佳的时序肾移植感染预测模型的召回率可达77.50%,F1分数可达3.41%。最后将基于深度学习的预测框架推广至具有相似特征的Physionet2012数据集中,分类性能最佳的是基于滑动窗口法和加权交叉熵损失函数的优化分类结构后的MTAN模型,召回率为85.57%,F1 分数为 50.30%。