论文部分内容阅读
随着医疗行业信息化发展,越来越多的医疗信息数据产生,医疗行业与大数据结合成为必然的趋势,医疗领域越来越多的产品将要应用到大数据技术,医生决策,病患诊断离不开大数据技术。生活水平的提高使得越来越多的人患有健康病,高血压和高血脂作为常见的慢性病易于引发脑卒中、心力衰竭、肾脏衰竭、心脑血管疾病等,而这些疾病的发生与多种因素有关,从各个因素能够预测疾病的发病风险。本文从预防医学的角度出发,以搭建组合疾病预测模型为目的,探究海量体检数据疾病风险发生的概率,并给出影响高血压这一疾病的指标危险程度。本文的主要工作如下:(1)提出了基于Choquet积分的数据挖掘模型的预测算法,算法不仅组合了不同的模型,并能够对不同组合进行筛选流程。预测模型非常多,每个模型的刻画数据的角度不同,考虑到模型对预测结果可能产生的影响,以及模型之间的交互作用也可能对预测结果产生影响。本文利用模糊积分衡量不同模型的模糊测度以及模型之间的交互作用,经实验分析,大大提高了预测的准确率。本文选择了五种模型,分别对五种数据挖掘领域的模型进行预测并评估,并通过模糊积分确定单模型权重和交互权重确定模型组合预测值,并进行比较,实验发现组合模型相比单模型具有一定的优势。(2)提出了基于Choquet积分的模型组合的特征筛选方法。特征筛选的方法有很多,本文从模型的角度对数据特征进行筛选,不同模型的衡量角度会有差异,本文构建了基于组合模型特征筛选的算法,实现从模型角度以及模型交互角度对特征重要性的贡献程度。同时考虑到特征特征与标签之间的交互作用,对特征进行了相关分析。(3)本文利用实际场景中的体检数据对某一类疾病高血压做预测,并通过对数据集成、数据清洗、数据填补及降维构建了基于模型融合的预测体系,制定了基于大数据的疾病风险预测模型。通过预测模型所得结果可以为从医人员提供一定的决策帮助。在此,利用logistic回归分析影响疾病指标高低的重要因素,对其进行相关解读。