论文部分内容阅读
背景患有妊娠糖尿病(Gestational diabetes mellitus,GDM)的孕妇极易发生难产和新生儿代谢异常。建立预测模型,在孕妇妊娠早期评估其孕后发生妊娠糖尿病的风险,可以提前采取生活方式干预措施以降低风险。因此本研究旨在以传统logistic回归作为基线模型,建立基于机器学习算法的妊娠糖尿病风险评估系统。方法将2010年7月1日至2012年9月30日在天津市市内六区卫生院进行早孕检查并建立孕产妇保健手册的孕妇纳入研究队列,其中妊娠4-12周的孕妇共19669例。所有孕妇填写“妊娠早期健康问卷”,收集孕妇基本信息及人体测量学资料。在妊娠24-28周时,所有的孕妇在社区卫生服务中心常规给予空腹50g、1h葡萄糖筛查试验(Glucose Challenge Test,GCT),其中GCT阳性的妇女将被告知并推荐去天津市妇女儿童保健中心接受标准的75g-2h口服葡萄糖耐量试验(Oral Glucose Tolerance Test,OGTT),以确诊是否患有GDM。与此同时,所有的孕妇需填写“妊娠中期健康问卷”,包括基本信息及人体测量学信息。用于构建预测模型的变量包括:怀孕年龄、孕妇接受教育水平、家庭月收入、糖尿病家族史、孕次、产次、腰围、臀围、肝功能ALT、孕前BMI、空腹血糖、收缩压、舒张压和体重变化。数据集根据二分类结局(是否患妊娠糖尿病)分层随机划分为训练集(70%)和测试集(30%),训练集用于训练模型,测试集测试预测模型的效果。采用的预测模型包括:logistic回归、lasso、随机森林(Random Forest)、XGBoost(e Xtreme Gradient Boosting)和支持向量机(Support Vector Machine,SVM),其中logistic回归作为基线预测模型。为避免模型过拟合,采用交叉验证方法将训练集分为5折,确定模型超参数的取值范围后采用网格搜索法得到每一组超参数下的模型预测结果,从区分度(discrimination)和校准度(calibration)两个方面评价模型的预测效果。由于数据集是不平衡数据,因此采用Precision-Recall curve作为主要评价指标,Receiver Operating Characteristic curve作为次要评价指标评价预测模型的区分度,采用校准图(Calibration plot)和Hosmer-lemeshow test评价模型的校准度(calibration),校准度不好的模型采用isotonic regression或者Platt’s方法对预测结果重新校准。将得到的最优预测模型作为API接口内嵌到网页后端,构建妊娠糖尿病风险预测工具,实现对孕妇患妊娠糖尿病风险的实时、精准预测。结果根据孕妇是否患GDM及既往是否患有糖尿病等关键信息完整性,确定纳入分析的孕妇例数为19331例,其中患妊娠糖尿病的女性共1484例(7.6%)。预测结果表明,XGBoost模型预测效果最优,AUPRC(Area Under the Precision Recall curve)为0.212(95%CI,0.201-0.223),相对于基线logistic回归模型提升5.1%,相对于lasso提升4.9%,相对于随机森林提升3.9%,相对于支持向量机提升2.8%;AUROC(Area Under the Receive Operating Characteristic curve)为0.739(95%CI,0.712-0.766),相对于基线logistic回归提升5.4%,相对于lasso提升4.8%,相对于随机森林提升5.2%,相对于支持向量机提升1.1%;且经过Platt’s方法的校准度校正,XGBoost模型的校准度较好(Hosmer-Lemeshow test P=0.313),且根据XGBoost模型的变量重要性结果表明,孕妇腰围、孕前空腹血糖、孕前BMI、和肝功能ALT对妊娠糖尿病风险预测最重要。通过R语言的shiny包建立网页在线版的妊娠糖尿病风险预测系统,用户进入网页(https://liuhongwei.shinyapps.io/GDM_RISK_SCORE)即可在线计算并获取患妊娠糖尿病的风险值。结论相对于传统的logistic模型和其它常见的机器学习模型,本研究建立的XGBoost模型具有更优的预测表现;对于不平衡样本,采用Precision-Recall curve作为主要评价指标可以更准确评价预测模型的效果;通过网页将建立的预测模型应用于实际,提升预测模型的应用价值,同时满足公共卫生需求,具有重要的应用价值。