论文部分内容阅读
研究背景医院感染是住院患者死亡的重要原因之一,位居美国居民死亡原因第八位。其中,泌尿系感染是医院感染之一,约占感染的36%~40%,一旦发生感染往往影响到患者的病情恢复及增加治疗成本。老年患者作为医院感染的易感人群,医院感染的发生率和病死率均较高,需引起医疗相关工作人员的高度重视。所以,老年骨科患者的早期术后并发症风险预测,可以让临床医生对患者的预后有所了解,并助于医生的临床决策。研究目的通过对真实世界中老年骨科手术患者术前、术中、术后的文本型数据和实验室检验的数字型数据进行分析挖掘,使用机器学习算法建立老年骨科手术患者术后泌尿系感染风险预测模型,以期为临床防治提供参考。研究方法研究对象2014年9月1日至2018年11月30日,来源于中国中医科学望京医院医院信息管理系统、实验室信息管理系统、医学影像信息系统中,符合纳入排除标准的4611份临床电子病历。研究因素为确保研究的多角度和多维度,应尽可能多的提取病历信息中可以用于观察的特征,数据主要包含273个电子病历中包含的相关特征,其中连续型特征189个,离散型特征84个。统计方法使用EXCE1对数据进行储存,然后对数据进行数据转换和降维,最后进行质量控制,最终完成数据库的建设。对数据库中的特征进行统计,剔除缺失比例大于30%的特征,并对缺失比例小于30%的特征进行多重插补。离散特征使用卡方检验;连续特征满足正态分布使用T检验,不满足正态分布使用Wilcoxon检验。将具有统计学意义的特征带入python中的5种机器学习模型(logistic Regression、Balanced Bagging Classifier、Easy Ensemble Classifier、Balanced Random Forest Classifier、XG Boost)中,通过对模型参数(AUC 等)的比较,确定最佳模型,并根据模型结果进行降维,剔除部分模型特征,对模型进行优化,得出最终模型。研究结果通过logistic模型共得到危险特征10项,分别为是否导尿、恶性肿瘤史、大型血小板比率、β 2微球蛋白术前最小值、尿液PH术前最小值、腰椎和骨盆关节和韧带脱位扭伤、凝血酶凝结时间、其他心率失常、泌尿系其他疾患。保护特征7项,椎管内麻醉、局麻、手指和脚趾的后天性变形、神经阻滞、肩损害、尿比重术前最大值、尿常规二分类变量阳性。模型参数AUC=0.8163、准确率0.6241、特异度0.8333、灵敏度0.6170、阳性预测值0.9910、阴性预测值0.0681、阳性释然比3.7020、阴性释然比0.4590。模型公式logistic(C=1.0,class_weight=’balanced’,dual=False,fit_intercept=True,intercept_sca ling=1,max_iter=100,multi_class=’warn’,njobs=None,penalty=’12’,random state=None,solver=’warn’,tol=0.0001,verbose=0,warm_start=False)研究结论基于真实世界临床数据,使用机器学习算法,建立了老年骨科患者术后UTI logistic风险预测模型,通过内部验证发现对老年骨科术后患者UTI具有较好的预测能力。通过模型特征发现,术后UTI相关特征共计17项。其中导尿、恶性肿瘤史、大型血小板比率、β 2微球蛋白术前最小值、肩损害、尿液PH术前最小值、腰椎和骨盆关节和韧带脱位扭伤、其他心率失常、泌尿系其他疾患,呈正相关关系。椎管内麻醉、局麻、手指和脚趾的后天性变形、神经阻滞、肩损害、尿比重术前最大值、尿常规二分类变量阳性成负相关关系。创新点基于真实世界临床数据,纳入样本量大,为骨科手术患者。观察特征全面,不预先设定模型特征,完全通过统计分析在高纬度临床特征中寻找。使用机器学习算法,模型选择种类多,此外与传统SPSS中logistic回归相比,可对样本不平衡数据进行优化处理,模型更加稳定可靠,对阳性或阴性结局均有较好预测能力。利用ICD-10编码对文本类型诊断信息进行标准化和降维,提高了文本类临床信息的利用率。