基于机器学习算法的妊娠糖尿病风险预测和在线计算研究

来源 :天津医科大学 | 被引量 : 0次 | 上传用户:kency2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景患有妊娠糖尿病(Gestational diabetes mellitus,GDM)的孕妇极易发生难产和新生儿代谢异常。建立预测模型,在孕妇妊娠早期评估其孕后发生妊娠糖尿病的风险,可以提前采取生活方式干预措施以降低风险。因此本研究旨在以传统logistic回归作为基线模型,建立基于机器学习算法的妊娠糖尿病风险评估系统。方法将2010年7月1日至2012年9月30日在天津市市内六区卫生院进行早孕检查并建立孕产妇保健手册的孕妇纳入研究队列,其中妊娠4-12周的孕妇共19669例。所有孕妇填写“妊娠早期健康问卷”,收集孕妇基本信息及人体测量学资料。在妊娠24-28周时,所有的孕妇在社区卫生服务中心常规给予空腹50g、1h葡萄糖筛查试验(Glucose Challenge Test,GCT),其中GCT阳性的妇女将被告知并推荐去天津市妇女儿童保健中心接受标准的75g-2h口服葡萄糖耐量试验(Oral Glucose Tolerance Test,OGTT),以确诊是否患有GDM。与此同时,所有的孕妇需填写“妊娠中期健康问卷”,包括基本信息及人体测量学信息。用于构建预测模型的变量包括:怀孕年龄、孕妇接受教育水平、家庭月收入、糖尿病家族史、孕次、产次、腰围、臀围、肝功能ALT、孕前BMI、空腹血糖、收缩压、舒张压和体重变化。数据集根据二分类结局(是否患妊娠糖尿病)分层随机划分为训练集(70%)和测试集(30%),训练集用于训练模型,测试集测试预测模型的效果。采用的预测模型包括:logistic回归、lasso、随机森林(Random Forest)、XGBoost(e Xtreme Gradient Boosting)和支持向量机(Support Vector Machine,SVM),其中logistic回归作为基线预测模型。为避免模型过拟合,采用交叉验证方法将训练集分为5折,确定模型超参数的取值范围后采用网格搜索法得到每一组超参数下的模型预测结果,从区分度(discrimination)和校准度(calibration)两个方面评价模型的预测效果。由于数据集是不平衡数据,因此采用Precision-Recall curve作为主要评价指标,Receiver Operating Characteristic curve作为次要评价指标评价预测模型的区分度,采用校准图(Calibration plot)和Hosmer-lemeshow test评价模型的校准度(calibration),校准度不好的模型采用isotonic regression或者Platt’s方法对预测结果重新校准。将得到的最优预测模型作为API接口内嵌到网页后端,构建妊娠糖尿病风险预测工具,实现对孕妇患妊娠糖尿病风险的实时、精准预测。结果根据孕妇是否患GDM及既往是否患有糖尿病等关键信息完整性,确定纳入分析的孕妇例数为19331例,其中患妊娠糖尿病的女性共1484例(7.6%)。预测结果表明,XGBoost模型预测效果最优,AUPRC(Area Under the Precision Recall curve)为0.212(95%CI,0.201-0.223),相对于基线logistic回归模型提升5.1%,相对于lasso提升4.9%,相对于随机森林提升3.9%,相对于支持向量机提升2.8%;AUROC(Area Under the Receive Operating Characteristic curve)为0.739(95%CI,0.712-0.766),相对于基线logistic回归提升5.4%,相对于lasso提升4.8%,相对于随机森林提升5.2%,相对于支持向量机提升1.1%;且经过Platt’s方法的校准度校正,XGBoost模型的校准度较好(Hosmer-Lemeshow test P=0.313),且根据XGBoost模型的变量重要性结果表明,孕妇腰围、孕前空腹血糖、孕前BMI、和肝功能ALT对妊娠糖尿病风险预测最重要。通过R语言的shiny包建立网页在线版的妊娠糖尿病风险预测系统,用户进入网页(https://liuhongwei.shinyapps.io/GDM_RISK_SCORE)即可在线计算并获取患妊娠糖尿病的风险值。结论相对于传统的logistic模型和其它常见的机器学习模型,本研究建立的XGBoost模型具有更优的预测表现;对于不平衡样本,采用Precision-Recall curve作为主要评价指标可以更准确评价预测模型的效果;通过网页将建立的预测模型应用于实际,提升预测模型的应用价值,同时满足公共卫生需求,具有重要的应用价值。
其他文献
天然气水合物是由水和天然气组成的类冰晶化合物,其主要成分以甲烷(CH4)为主。甲烷是一种重要的温室气体,对温室效应的影响是二氧化碳的21倍。研究表明,全世界90%以上的天然气
随着信息化时代的发展,纳米材料已经全面走进人们生活,降低生产成本、提高材料性能与生产效率成为了目前纳米材料的研究热点。多孔阳极氧化铝(Anodic Aluminum Oxide,AAO)模
为明确苎麻不同品种的镉抗性差异性,本研究采用3个不同品种苎麻,在生长旺期人为添加重金属镉,研究了镉胁迫下苎麻光合特性、根系吸收机制、螯合解毒机制,比较不同苎麻品种在
碎石桩法是一种常用地基处理方法,但由于桩身材料没有黏聚力,需要周围土体提供一定的围护作用才能发挥作用。当周围土体强度较弱时,会发生鼓胀破坏而失去承载力。使用土工合
气动优化方法是抗风设计的重要措施。目前,气动优化措施主要是永久性地改变建筑外形,包括对建筑截面进行切削角、凹角、开设通风走廊或使建筑沿高度扭转、收缩等。但此类传统
在选矿过程中,设备的逻辑控制是保证被控设备安全运行以及工艺流程正常运行的关键。被控设备是选矿生产过程中必备的,而不同的工艺条件对设备的逻辑控制也不同。设备的逻辑控
随着无线通信技术的发展,人们所处的电磁辐射空间环境越来越复杂。本文提出了一种无网格径向点插值法在人体电磁辐射评估中的算法,并结合惠更斯盒计算人体辐射剂量。所得结果
北京市朝阳区围绕打造首都“全国政治中心、文化中心、国际交往中心、科技创新中心”的城市战略定位,以“文化、国际化、大尺度绿化”为主攻方向,充分发挥全国首批国家公共文化服务体系示范区和全国首个国家文化产业创新实验区“双区”叠加的优势,以文化产业园区建设为重要抓手,大力实施文化产业“百园工程”,力争到2020年打造100个产业集聚度高、产业特色鲜明、服务体系完善、管理运营规范、社会效益突出、示范带动作用
21世纪以来,随着互联网、物联网、云计算等技术的发展,以容量大、类型多、存取速度快、应用价值高为特点的大数据正在迅速融入人们的生产与生活。伴随着大数据时代的到来,政
智能车站是近年来兴起的一个融合了大数据、物联网、云计算、人工智能等技术的跨学科领域。当我国提出了“精品工程、智能京张”后,利用高新技术全力打造世界领先的智能车站势在必行。我国的高铁不断地发展和赶超其他国家,技术水平已经在处于世界前沿,大多数旅客都愿意乘坐高铁出行。同时,旅客不单单满足于出行方面的需求,也更加注重整体的服务体验。随着铁路交通网络的不断扩张,铁路部门不仅积累了大规模数据量的客流数据,而