基于数据挖掘的糖尿病预测模型研究

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:haofei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
糖尿病(Diabetes Mellitus,DM)是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特性。国际糖尿病联盟在Diabetes Atlas(Eighth Edition)中预测到21世纪中期全世界范围内的糖尿病患者数量会超过6亿人,这个数量将超过全世界总人口数的十分之一。在中国过去三十多年的社会发展历史中,人们开始意识到这一普遍影响家庭生活和个人幸福的慢性疾病所带来的影响。当前,从健康数据中获取有价值的信息正在逐渐成为一种趋势。互联网及信息技术的快速发展使得大量有关个人健康的信息数据得以沉淀,但是庞大的数据量始终缺乏有效的整理、规范及利用。通过有效方法将所有可用信息智能地转化为有价值的知识,比以往任何时候都更加重要和必不可少。如何挖掘出数据中有意义的信息为糖尿病的预防提供合理的建议成为当前亟待解决的问题。基于数据挖掘的分析能够对事物的发展趋势做出预测也能够发现数据中包含的特征因素,针对糖尿病健康数据进行数据挖掘的研究分析有希望成为糖尿病预防的有效解决方案。本论文结合现有糖尿病预测模型的研究基础,针对多个有价值的糖尿病健康数据集进行数据挖掘实验,提出一种预测效果更佳、适用性更强的组合预测模型。在此基础之上研究分析糖尿病患者再就医的潜在风险因素,具体内容涉及以下几个方面:首先,对大量糖尿病相关的数据集进行搜集和选用。引入University of California,Irvine(UCI)机器学习数据库中的Pima Indian Diabetes数据集和Diabetes 130-US hospitals for years 1999-2008数据集,前者是被广泛应用的数据集,而后者则包括了大量的样本数据。同时参考了由弗吉尼亚大学医学院医学系Schorling博士提供的公开的新型糖尿病数据集,以及通过问卷调查的形式统计的国内相关人群的健康数据信息。其次,利用多种数据预处理技术进行数据清洗处理并优化得到具有可用性的初始数据。采用K-means算法、Logistic回归算法、决策树算法、随机森林算法等进行多项预测分析实验,对实验结果进行多方面的比较分析,由此提出一种具有更高预测准确率、更强适用性的组合预测模型。此外,针对Diabetes 130-US hospitals for years 1999-2008数据集进行特征选择的数据挖掘分析,提取出引起糖尿病患者再就医的潜在风险因素。
其他文献
以某高地隙自走式农用喷雾机的全液压转向系统为对象,针对其转向不灵活、转向半径过大的问题,设计出一种新颖的全液压四轮转向系统。根据喷雾机的总体设计要求确定转向器、转
牛津大学最新研究发现,每天吃新鲜水果对人体健康有惊人的影响。将草莓、苹果或西瓜加入到日常饮食中的人,其死亡风险比从不吃水果的人降低32%。这意味着每天吃水果的人,无论
液压传动四轮转向机构属于四轮车辆,可实现车身整体近似横向平移运动,具有结构合理、使用可靠、机动性高及灵活性好的特点。为此,本文阐述了其设计原理及工作原理,旨在为其在
发达国家在公务员保障制度建设方面由于起步较早,其公务员保障机制相对完善。通过比较分析发现,虽同属发达国家,但各国的公务员保障机制特点和内容不尽相同,各自所取得的成效也不
对红寺堡灌区现状种植结构、灌溉面积、宁夏现行灌溉制度调查统计,计算各灌域灌水率及灌水流量,通过与设计流量对比分析。红三干泵站有21d供水能力不足,红五泵站有82d供水能力不
随着我国城乡二元体制及商品经济的快速发展,大量的农民进城务工的现象愈加普遍,许多家庭只留下了老人和孩子。目前农村留守儿童规模日益壮大,在这类儿童身上暴露出的一系列问题
兴趣是打开知识大门的“金钥匙”,是最好的老师。研究表明,当小学生对科学课产生浓厚的兴趣时,不仅思维活跃,而且观察会更细致,想象也趋于丰富,能使教学过程在较长时间内保持较高的
期刊
从社会的观点看,保险是一种经济补偿制度,从法律的观点看,保险是一种契约关系。一方面保险人应对被保险人可能遭受的损失按合同规定承担经济赔偿责任或给付保险金,另一方面被
传统居家养老模式中,对独居老人的日常生活健康状况的监测及室内活动的异常行为检测,依赖于各种可穿戴传感器设备,易给老人造成行动不便和隐私问题。为此,提出一种基于位置信