论文部分内容阅读
糖尿病(Diabetes Mellitus,DM)是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特性。国际糖尿病联盟在Diabetes Atlas(Eighth Edition)中预测到21世纪中期全世界范围内的糖尿病患者数量会超过6亿人,这个数量将超过全世界总人口数的十分之一。在中国过去三十多年的社会发展历史中,人们开始意识到这一普遍影响家庭生活和个人幸福的慢性疾病所带来的影响。当前,从健康数据中获取有价值的信息正在逐渐成为一种趋势。互联网及信息技术的快速发展使得大量有关个人健康的信息数据得以沉淀,但是庞大的数据量始终缺乏有效的整理、规范及利用。通过有效方法将所有可用信息智能地转化为有价值的知识,比以往任何时候都更加重要和必不可少。如何挖掘出数据中有意义的信息为糖尿病的预防提供合理的建议成为当前亟待解决的问题。基于数据挖掘的分析能够对事物的发展趋势做出预测也能够发现数据中包含的特征因素,针对糖尿病健康数据进行数据挖掘的研究分析有希望成为糖尿病预防的有效解决方案。本论文结合现有糖尿病预测模型的研究基础,针对多个有价值的糖尿病健康数据集进行数据挖掘实验,提出一种预测效果更佳、适用性更强的组合预测模型。在此基础之上研究分析糖尿病患者再就医的潜在风险因素,具体内容涉及以下几个方面:首先,对大量糖尿病相关的数据集进行搜集和选用。引入University of California,Irvine(UCI)机器学习数据库中的Pima Indian Diabetes数据集和Diabetes 130-US hospitals for years 1999-2008数据集,前者是被广泛应用的数据集,而后者则包括了大量的样本数据。同时参考了由弗吉尼亚大学医学院医学系Schorling博士提供的公开的新型糖尿病数据集,以及通过问卷调查的形式统计的国内相关人群的健康数据信息。其次,利用多种数据预处理技术进行数据清洗处理并优化得到具有可用性的初始数据。采用K-means算法、Logistic回归算法、决策树算法、随机森林算法等进行多项预测分析实验,对实验结果进行多方面的比较分析,由此提出一种具有更高预测准确率、更强适用性的组合预测模型。此外,针对Diabetes 130-US hospitals for years 1999-2008数据集进行特征选择的数据挖掘分析,提取出引起糖尿病患者再就医的潜在风险因素。