论文部分内容阅读
第一部分基于大数据挖掘的川崎病早期诊断预测因子及预测模型构建目的:川崎病(KD)是一种病因不明的全身组织血管炎症性自身疾病,在5岁以下的婴幼儿中好发,目前在发达国家已成为儿童获得性心脏病的主要原因之一。KD的延迟诊断可导致严重的心血管并发症。因此本部分通过大数据回顾性研究,建立一种诊断模型来帮助早期鉴别KD和其他发热性疾病患儿(FCs),以便及时诊断KD并提供积极的治疗。方法:(1)回顾性收集2007年10月至2017年12月在重庆医科大学附属儿童医院诊治的KD和FCs患儿的电子病历信息。依据患儿的出院诊断将其分为两组:KD组和FCs组。(2)利用SQL SEVER2008软件对原始数据进行清洗,数据主要包括患者的人口统计学资料、临床特征、实验室检验结果和影像学检查报告。(3)统计分析:两组间计量资料比较采用Mann-Whitney u检验,计数资料比较采用卡方检验。P<0.05被认为在两组之间有显著的统计学差异。选取两组间有显著统计学差异的数据进行多因素分析。采用最小绝对值收敛和选择算子(LASSO)回归模型,利用单因素分析得到的显著差异指标进行特征选择。建立基于多元logistic回归分析的诊断模型,计算95%置信水平区间的比值比(OR),以确定独立预测因子得分并建立新的预测模型。使用受试者工作特性(ROC)曲线和ROC曲线下面积(AUC)评估所建立模型的预测性能。结果:(1)共收集10367例患儿,其中KD组有5642例(54.42%);FCs组有4725例(45.58%)。另外收集809例不完全KD。(2)单因素分析结果显示,KD组的24个变量水平显著高于FCs组,如WBC、PLT、球蛋白等(P<0.001);KD组的32个变量的水平显著低于FCs组,如单核细胞百分比(%MON)、淋巴细胞百分比(%LYM)、磷等(P<0.001)。(3)通过LASSO约束识别出12个具有统计学显著差异的变量,并对其采用多元logistic回归分析,分析结果确定KD组的显著独立预测因子为:较低水平的%MON、磷、尿酸(UA)、%LYM、前白蛋白、AST:ALT 比值、血清氯和乳酸脱氢酶(LDH);较高水平的球蛋白、γ-谷氨酰转肽酶(GGT)和PLT;以及年龄。(4)KD早期诊断预测新模型与既往KD诊断模型研究相比,新模型AUC值(0.906±0.006)、灵敏度(86.0±0.9%)和特异性(80.5±1.5%)更高。此外,809名不完全KD患者作为验证数据集被用于进一步评估新模型的有效性:其AUC值为0.816。结论:发现12个KD早期诊断独立危险因子,包括%MON、磷、UA、%LYM、前白蛋白、AST:ALT 比值、血清氯、LDH、球蛋白、GGT、PLT和年龄。由此构建的KD早期诊断预测新模型,较既往模型诊断效果更好。第二部分基于机器学习的川崎病静脉注射免疫球蛋白不敏感预测方法研究目的:第一部分研究已帮助临床早期诊断KD,但随后的KD治疗可能会出现静脉注射免疫球蛋白(IVIG)不敏感。因此,本研究提出基于大数据双向聚类和可解释机器学习的多分类系统,以识别IVIG不敏感患儿并指导临床用药,减少不良反应。方法:(1)回顾性收集重庆医科大学附属儿童医院自2007年1月至2016年12月KD患儿的临床资料,根据KD患儿对IVIG治疗的反应,将其分为两组:IVIG不敏感组和IVIG敏感组。(2)建立几个基准模型,包括回归模型(逻辑回归,套索,和岭回归)、机器学习模型[决策树(DT)、k近邻(KNN)、多项式朴素贝叶斯(MNB)和多层感知器(MLP)]和集成学习方法[随机森林(RF)、lightGBM(GBM)、XGboost(XGB)和可解释提升机(Explainable Boosting Machine,EBM)],其中EBM是机器学习算法中的一种,它相对于其他传统机器学习算法具有更高的精准性和智能性。通过所提出的基于共同聚类的框架对这些基线方法进行增强。(3)采用AUC、平均精度(AP)、精度、召回率和F1值对每个预测模型的性能进行评估。结果:(1)共收集3017例KD患儿,其中包括IVIG不敏感患儿459例(15.21%),IVIG敏感患儿2558例(84.79%)。(2)使用上述5个评价指标进一步检验10种机器学习算法的预测性能,EBM预测模型的 AUC 值(0.917±0.021)、平均精度(0.835±0.022)、召回率(0.669±0.051)和F1值(0.773±0.021)较其他模型都取得最高值。(3)通过EBM预测模型对IVIG不敏感患儿的临床特征进行识别,发现8个高危因子,排序分别是脑钠肽(BNP)、血小板(PLT)、白蛋白、红细胞沉降率(ESR)、血红蛋白(HB)、C反应蛋白(CRP)、总胆红素(TB)和丙氨酸氨基转移酶(ALT)。结论:采用10种不同的机器学习算法对临床病例数据进行分析,EBM模型预测IVIG不敏感的性能较其他模型高,同时该模型识别出8个危险因素。这项研究帮助我们确定最佳的机器学习模型来预测IVIG不敏感,并提出其功能的重要性。第三部分真实世界数据驱动的川崎病冠状动脉损害临床预测模型构建目的:前两部分研究指导临床早期诊断KD和甄别IVIG不敏感KD,但有部分KD患儿即使经过早期IVIG治疗后仍可能并发冠脉损害(CALs)。因此本研究基于临床真实世界大数据,利用机器学习算法来早期预测KD发生30天后是否并发CALs,并确定与KD并发CALs相关的风险因素,从而指导临床早期预防CALs的发生。方法:(1)回顾性收集2014年1月至2018年12月在重庆医科大学附属儿童医院住院治疗及门诊随访KD患儿的临床电子病历信息。根据KD患儿发生30天后有无并发CALs分为两组:CALs组和NCALs组。(2)统计分析:对CALs和NCALs两组临床资料进行单因素分析,分为以下3种情况:1)不考虑患者入院时的CALs情况;2)患者入院进行IVIG治疗前已并发CALs;3)患者入院进行IVIG治疗前未并发CALs。对上述3种不同情况,在实验中采用分类算法建立多个预测模型,包括logistic回归、机器学习模型[多元贝叶斯(MNB)和多层感知器(MLP)]和集成学习方法[随机森林(RF)、支持向量机(SVM)、XGboost(XGB)和可解释提升机(EBM)]。利用AUC、灵敏性、特异性和准确率对预测模型的性能进行评判。结果:(1)共收集2089例KD患儿病例信息,其中CALs组682例;NCALs组1407例。(2)单因素分析两组临床/实验室检查结果,显示具有明显统计学差异的变量,可分为以下三种情况:1)不考虑患者入院是否并发CALs,变量包括男性、年龄、CRP、ESR等(P<0.005);2)考虑患者入院接受IVIG治疗前已并发CALs,变量包括男性、CRP、ESR、白蛋白等(P<0.005);3)考虑患者入院进行IVIG处理前未并发CALs,变量包括男性、CRP、PCT、ALT等(P<0.005)。(3)对以上三种的单因素分析结果,构建多种预测模型,发现RF预测模型的AUC值(0.872)、特异性(0.832)和准确率(0.813)较其他模型都取得最高值。结论:本研究采用机器学习算法构建KD发生30天后并发CALs早期预测模型,发现不同分组情况下KD并发CALs的危险因素不同。RF预测模型的性能较其它机器学习模型更佳。