基于数据挖掘技术的2型糖尿病患病风险预测研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wenge228394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
糖尿病已成为继心脑血管疾病、恶性肿瘤后的第三大威胁人类健康的慢性病。随着我国人民生活水平的普遍提高以及生活节奏的加快,糖尿病患病者数量正在以惊人的速度增长,且向低龄化发展。最新调查显示,我国成年糖尿病患者高达1.14亿,呈现高发病率状态,然而知晓率、治疗率和达标率偏低。没有得到及时治疗与控制的糖尿病患者可能有心脑血管以及糖尿病足等各种并发症,这不仅严重影响了糖尿病患者的生活质量,也为家庭和社会带来了沉重的负担。因此,预防和控制2型糖尿病的发生,对于节约医疗资源、降低我国医疗支出具有重要战略意义。本文基于数据挖掘分类技术和分类器评估等相关理论,首先到秦皇岛市属医院进行原始数据采集,并利用相关的数据预处理技术进行了数据的清洗;其次,针对单一分类器的局限性,本文综合比较多个分类器(包括决策树C5.0,人工神经网络和支持向量机)的优势和劣势,运用多个评估工具进行模型的预测性能评价和质量评价,通过比较获得适合2型糖尿病患病风险预测的最优参数下的最佳分类器;第三,针对模型的可操作性和实用性,本文运用决策树C5.0算法,分别在简单个人水平、简单临床和复杂临床数据集下建立患病风险预测模型,以实现不同情况下为2型糖尿病的预警和干预提供帮助;最后,由于医疗数据的复杂性和医疗临床决策中对分类精度和算法稳定性的高度要求,本文采用Weka和Eclipse软件建立集成分类器,增强模型的鲁棒性,最终建立一个稳定性良好、学习速度快、分类效果最佳的数据挖掘模型。模型的评估结果表明,在单一分类器中,决策树C5.0模型在复杂临床数据集下的预测准确率、灵敏度、特异度、约登指数以及ROC曲线下面积均是最高的,说明决策树C5.0模型在2型糖尿病患病风险预测中的应用是最适合的,这对糖尿病高危人群的预防和医生临床诊断起到一定的指导作用,具有参考价值。但是,由于经典算法的局限性,本文加入集成算法,发现在复杂临床数据集下,使用Bagging集成算法组合多个C4.5单分类器后的分类模型的稳定性好,学习速度快,泛化能力强,分类效果最佳。
其他文献
旧州屯堡古镇地处安顺屯堡村落群的中心区,其保留了活态的文化事项和特有的文化符号.旅游资源的开发价值不仅限于资源本身,还受到区位条件、发展时期、旅游发展现状及趋势、
以南粳9108为试验材料,在印刷播种和常规播种方式下,探讨不同栽插密度对毯苗机插水稻产量及其光合物质生产特征的影响。结果表明,与常规播种相比,印刷播种方式下水稻增产1.9%
导读:伴随新产业分类理念的传播和以互联网为平台的信息技术的创新发展,进入后工业时代的发达国家的传统产业尤其是制造业与服务业开始裂变,传统实体制造产业的辅助部分正在分离
伴随我国综合国力的不断提升,高层建筑工程领域发展相当迅速,为了创新出更多的科学技术工程,很多高层施工技术应运而生。本文在此对高层建筑基础防水措施及施工实践做简要探
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
导读:有数据显示,中国现有的657座城市中,有200多座地级市试图成为大城市或特大城市,有180多座正在规划建设“国际大都市”,城市发展的非理性、盲目化正在加剧。城市化不能也不应
企业创新是一个内生因素与外生因素交互影响的复杂过程,且具有情境化的显著特征。企业内部的知识结构、技术能力,外部的市场环境、竞争格局都可能影响企业创新的方式与内容。
当前,我国正处于社会转型时期,社会快速发展带来了巨大的经济效益,也伴随着社会转型的阵痛与巨变。各种问题凸显,社会矛盾增多,尤其是医疗体制等民生领域,不满的情绪有所加剧
企业集团已成为现代企业的重要组织形式,并且产权关系链条日趋繁杂,集团内部管理尤其是财务管控问题,已经成为影响企业集团公司发展的主要瓶颈。企业集团必须充分利用资本市
坐落在北京天安门广场的人民大会堂,以庄严雄伟著称于世,历经五十多年的风雨检验,已成为中国建筑史上当之无愧的经典;对于中国人民来说,人民大会堂更像是一种象征,一种精神上