论文部分内容阅读
糖尿病是人体内胰岛素绝对或相对不足所导致的一组内分泌代谢性疾病群,其主要特征为血葡萄糖(简称血糖)水平增高,是目前世界上最主要的慢性非传染性疾病之一。当今全球范围内约有4.25亿人罹患糖尿病,其中2型糖尿病患者占90%以上。我国糖尿病患者人数居世界首位,且糖尿病及其相关并发症的发病情况逐渐呈现出爆发式增长趋势,极大地影响了居民的生活质量并威胁到整个社会的健康保健系统。目前糖尿病尚无根治方法,亟需构建科学有效的糖尿病风险预测模型以评估普通民众的糖尿病患病风险,察觉潜在高危人群,继而对糖尿病发病进行预告与预警。近年来国内外趋向借助日渐成熟的数据挖掘技术从庞大的医学数据中挖掘分析所蕴藏的有价值的信息资源,以辅助相关病例的辨诊治疗以及医学领域的研究发展。本文采用数据挖掘技术并在总结前人研究成果的基础上,对居民健康体检数据进行挖掘分析,构建2型糖尿病患病风险预测模型。首先,基于真实原生健康体检报告进行数据预处理,构建面向2型糖尿病患病风险预测的数据样本集。收集某医院健康体检中心2010-2015年中连续两年共2325位体检者脱敏后的4650份真实原生健康体检报告,评估数据情况并采用灵活配置方式对其进行数据集成、数据标准化、定性变量转换等一系列数据预处理工作以完成数据清洗优化,共得到2064例49维的可用样本,以此作为论文研究数据基础。其次,研究并提出一种基于随机森林与过滤式特征选择思想结合的特征选择方法,并筛选出2型糖尿病患病风险预测的最优特征子集。采用随机森林对数据预处理后的可用样本进行特征重要性评估,通过多次交叉验证取优的拟合分析发现共28个变量对相应结果产生可见影响,对其进行迭代增量划分,进一步分析28个特征子集在分类器的接收者操作特征曲线下面积(AUC)表现,最终筛选出包含9个特征变量的最优特征子集,保留其作为基于数据挖掘的2型糖尿病患病风险预测模型的输入变量。再次,研究并提出基于逻辑回归与极端梯度提升树(XGBoost)融合的2型糖尿病患病风险预测模型。分别基于逻辑回归、XGBoost构建预测模型,在此基础上研究并实现了逻辑回归与XGBoost的融合预测模型,对参数进行选择与调试,并使用独立测试集进行测试验证,结果表明本文所构建的三种模型均具有良好的效果,其中逻辑回归与XGBoost的融合模型表现最优,为本研究的最佳模型。最后,设计和实现2型糖尿病患病风险预测原型系统。以逻辑回归与XGBoost的融合预测模型为基础,结合实际应用场景进行需求分析、系统设计以实现原型系统,为进一步地推广应用形成支撑。