论文部分内容阅读
妊娠高血压及其并发症作为孕产妇死亡的第二大影响因素,给孕产妇和新生儿带来严重威胁。该疾病多于妊娠20周后的高血压、蛋白尿为显著特征,同时损害身体中其它器官和系统,不仅会影响胎儿母体内生长发育,甚至会造成母婴死亡,是导致孕产妇和胎儿死亡的主要原因之一。目前,业内还没有研究能够完全明确其发病机制和影响因素。在这一背景下,本文采用数据挖掘的方法,对孕期高血压展开研究。论文的内容主要分为三个部分:(1)基于随机森林和xgboost的妊娠高血压研究第一部分首先对孕期高血压数据进行预处理,包括数据清洗,去重,处理缺失数据和属性规约等,最后进行数据转换和建模分析。本章使用了随机森林和Xgboost两种机器学习模型对孕期高血压数据进行建模分析并对特征进行了评分。实验发现血压和病人身高体重指数的特征分数比钙元素,钠元素,红细胞数目和血红蛋白的特征分数大,在疾病的预测中起到很大的作用。我们发现随机森林模型准确率为82.5%,比XgBoost高约3个百分点,但是XgBoost训练速度比随机森林要快。(2)基于融合模型的妊娠高血压分类预测鉴于传统模型无法完全发现孕期高血压数据潜在的规律,为了发挥各种模型的优点,提高分类预测的准确性,本章提出了一种基于随机森林和Xgboost的孕期高血压融合模型,使用了集成学习中Stacking的双层结构。经实验,融合模型的准确率约为83.68%,相较于单一模型预测的准确度更高。融合模型对数据有更好的解析力而且模型性能更好,但是训练速度要慢。总体来说数据挖掘可以应用于医学疾病的研究。(3)基于java web的孕期数据采集预测系统这一部分使用java web相关技术实现了一个孕期数据采集预测系统。孕期数据采集预测系统使用了当前广泛应用于互联网行业的JavaScript、JQuery和Bootstrap技术以及Spring、SpringMVC和Mybatis开源框架,结合成熟的MySQL数据库技术开发而成。系统提供了登录注册,数据录入查询修改和数据统计功能,并且开发了管理员权限来统一管理整个系统数据,并在管理员界面集成了融合模型算法实现了孕期高血压疾病的预测。