论文部分内容阅读
数据挖掘作为一种新兴交叉学科,涉及数理统计、机器学习、计算智能、数据库、情报检索等相关理论和知识。数据挖掘在多个行业的成功应用为其发展提供了巨大动力。糖尿病自公元前1500年首次记录至今,一直是困扰人类健康的重要难题。随着信息技术在医疗行业的应用越来越广,产生了大量医疗信息数据,而数据挖掘提供了从中发掘价值的一种途径。对指导临床用药、就诊引导、医疗资源规划等具有重要意义。本文利用数据挖掘技术对糖尿病临床数据进行了分析研究,期望从中发掘出糖尿病临床用药规律、再住院因素、糖尿病性视网膜病变等知识,从而建立相应分类和决策模型。本文主要完成以下三个方面的工作:1.对各国目前糖尿病形势进行了分析,在对全球219个国家和地区的聚类分析中得到不同类型国家在糖尿病患者年龄、性别及城乡分布间的差异规律。结果表明,全球糖尿病患者80%集中于中低收入国家,更为严重的是这部分国家用于糖尿病的医疗费用却仅占全球总治疗费用的20%。城乡分布明显不均,特别是低收入国家,乡村患病人口明显高于城市患病人口。2.利用模糊多层感知器作为支持向量机的核函数,采用不对称的三角隶属度函数初始化多层感知器的权重和阈值形成模糊支持向量机,并以此为基函数,分类器采用Adaboost算法作为集成学习算法,从而建立了Adaboost-FSVM模型。并将其应用于皮马印第安糖尿病数据分类识别和糖尿病性视网膜病变识别中。文中还对比分析了SVM、DT、Adaboost-SVM等算法,发现Adaboost-FSVM模型在两类糖尿病相关疾病的分类识别中拥有较好的效果。3.分析了糖尿病临床住院数据,在数据清洗阶段首先对比使用了四种方法处理数据缺失问题,然后对糖尿病再住院从患者来源和总体两个方面进行了分析,挖掘出了糖尿病常用药物和处方药剂变化对再住院的影响。最后采用RBF、SVM、RVM、DT建立了糖尿病再住院预测模型。