面向不均衡不规则医疗数据的机器学习预测模型的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：ldrjordan

【摘要】

：

【作者】

：

李彦榕

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着医疗水平的提高,终末期肾病患者可以通过肾移植进行治疗,但是术后容易出现感染等并发症,会危及到移植物和患者的存活,因此医生需要给患者安排不定期不定项的检查,以密切观察患者的身体状况,再适量调整免疫抑制剂的用药方案。随着检查次数的增多,电子健康记录数据也与日俱增,电子健康数据往往是不均衡不规则的数据,由于医生在诊断患者病历时需要结合历史病历综合诊断,庞大的数据量、数据之间错综复杂的关系、个体差异性都会给医生诊断增加难度,因此设计肾移植感染预测模型精准预测肾移植术后感染情况以辅助诊疗具有现实意义。然而目前对肾移植感染预测的研究大多集中于医学领域,研究出来的模型具有不智能、基于小规模数据集且非真实数据分布等局限性。随着人工智能与医疗领域的进一步融合,用机器学习的方法预测类似特征的医疗数据集已经有不错的研究成果,因此机器学习技术将成为我们的重要研究方向。本文旨在基于传统机器学习和深度学习分别设计肾移植感染预测模型,并将肾移植数据集上的研究成果推广至具有类似特征的医疗数据集中。本文的主要工作内容如下:1.肾移植数据集的分析以及多场景建模。本文使用的肾移植数据集为医院真实采集的数据集,具有不均衡、不规则、多变量、含缺失值、单点预测、时序长度分布不均的特点,目前暂无特征完全一致的公开数据集。根据肾移植数据集对时间信息的处理,本文分为非时序场景和时序场景进行研究,根据不同场景下肾移植数据集的特点分别建立肾移植感染预测模型。2.非时序场景下基于传统机器学习的肾移植感染预测模型及其推广。针对不均衡、多变量、含缺失值的特点设计了解决数据集不均衡的方法、特征选择方法以及传统机器学习模型的对比实验。实验结果表明均衡后的数据集可以提高模型的预测性能,特征选择的效果受到数据分布和数据量的影响,其中稳定性与预测性能最佳的是SMOTE方法下的未经特征选择的逻辑回归模型,召回率高达75.76%,F1分数高达9.98%。最后将基于传统机器学习的预测框架推广至具有相似特征的Physionet2012数据集中,分类性能最佳的是EasyEnsemble方法下经过特征选择的GBDT模型,召回率为66.71%,F1分数为33.19%。3.时序场景下基于深度学习的肾移植感染预测模型及其推广。针对不均衡的特点,设计了解决数据集不均衡的方法的对比实验;针对多变量、含缺失值、时间间隔不规则、单点预测的特点,提出了优化分类结构的多时间注意力网络（MTAN）,并进行了对比实验;针对时序长度分布不均的特点,提出了基于滑动窗口法的MTAN模型,并进行了对比实验。实验结果显示解决数据集不均衡、优化MTAN模型的分类结构以及滑动窗口法都可以提升MTAN模型的感染预测能力,效果最佳的时序肾移植感染预测模型的召回率可达77.50%,F1分数可达3.41%。最后将基于深度学习的预测框架推广至具有相似特征的Physionet2012数据集中,分类性能最佳的是基于滑动窗口法和加权交叉熵损失函数的优化分类结构后的MTAN模型,召回率为85.57%,F1 分数为 50.30%。

其他文献

基于宏观环境分析法的我国建筑垃圾处理行业发展研究

采用宏观环境分析法，分别从政治环境、经济环境、社会环境和技术环境，对我国建筑垃圾处理行业发展进行分析，从发展阶段、政策标准、工艺技术等不同角度对建筑垃圾从“沟壑堆填弃料”到“绿色建造枢纽”的变化过程进行了梳理与总结。以建筑垃圾处理行业相关政策文件发布时间为历史坐标轴，将行业发展过程分为萌芽阶段、过渡阶段、发展阶段、深化阶段4个阶段，结合我国各个规划期时间点对行业产业链、投资运营模式发展以及社会环境

期刊

坚定文化自信打造文化强省为建设中华民族现代文明贡献力量

报纸

7×1中红外光纤合束器的设计、制备与性能研究

中红外光纤合束器可将多个低功率的中红外激光器进行合束，从而实现较高的功率输出。本工作研制了一种7×1硫系玻璃光纤合束器（未熔接输出光纤），评估了其中红外传输特性。该光纤合束器由As40S60/As38S62光纤组束熔融拉锥而成，初始光纤的纤芯直径和包层直径分别为200μm和250μm，数值孔径为0.38～0.35（@2～6μm），拉锥比例R为3和4，锥形过渡区长度为2 cm。测试结果表明：当R=3

期刊

山海连城公园连片绿色福利市民福气

报纸

源网荷储的优化调度技术的应用研究

近年来在电力的运行控制领域中，源网荷储协同优化运行是重要的发展及应用趋势，对于提高系统的运行经济性和稳定性具有重要的意义。首先分析了电力系统源网荷储等资源的基本类型，然后阐述了基于改进和声搜索算法的源网荷储的优化调度模型，最后进行了相应的案例分析，对于提高电力系统调度策略的合理性和电力系统的运行可靠性具有重要的意义。

期刊

绿意渐浓，“出门进园”成寻常

报纸

城市公园绿地开放共享的理论背景和实践思考

＜正＞2023年1月，住房和城乡建设部发布《关于开展城市公园绿地开放共享试点工作的通知》，启动了城市公园绿地开放共享试点。城市公园绿地开放共享已成为完整、准确、全面贯彻新发展理念，拓展公园绿地开放共享新空间，满足人民群众亲近自然、休闲游憩、运动健身新需求的重要举措。当前，公园绿地开放共享工作已在各地迅速展开，但相关理论研究尚少，对实践也缺乏梳理。对公园绿地开放共享的理论背景进行分析和探讨，对地方工

期刊

共享城市公园绿地好时光

报纸

针灸结合康复护理，改善腰腿痛患者生活质量

＜正＞腰腿疼痛在临床治疗中是作为一组症候群,腰腿痛患者在患病期间主要的症状表现为腰部和腿部疼痛症状。比较常见体力劳动群体,体力劳动群体长期需要腰部负荷过重,使得患者的腰椎出现了退行性病变,是属于工作量过大或者运动量过大导致的劳损,腰腿疼痛患者长期的疼痛症状,对于患者自身来说,会对患者的生活质量和身体健康造成严重影响。腰腿疼痛患者主要采取药物针灸治疗,能够帮助患者缓解疼痛症状,针灸治疗可以刺激患者病

期刊

艾司氯胺酮对保留自主呼吸全身麻醉胸腔镜肺结节切除术中低氧血症的影响

目的探讨艾司氯胺酮对保留自主呼吸全身麻醉下行胸腔镜周围性肺结节切除术患者呼吸、循环和急性期炎性因子的影响。方法选择择期拟在全身麻醉下行胸腔镜周围性肺结节楔形切除术的患者84例，男45例，女39例，年龄18～64岁，BMI 18～25 kg/m~2,ASAⅠ或Ⅱ级。采用随机数字表法将患者分为两组：艾司氯胺酮组（E组）和舒芬太尼组（S组）,每组42例。两组麻醉诱导前10 min分别恒速静脉泵注右美

期刊

面向不均衡不规则医疗数据的机器学习预测模型的研究

与本文相关的学术论文