论文部分内容阅读
高血压是一种常见的难以治愈的心脑血管疾病,近年来其知晓率和治疗率虽较以往有所提高,但总体水平仍较低,高血压患病率仍在上升。国内外在数据挖掘技术应用于高血压的分析方面,做了很多研究和实验,但主要是针对高血压患病的预测方面进行,很少有针对高血压患病因素方面进行全面的分析研究。本文以引起高血压的各项患病因素作为切入点,将数据挖掘技术应用到高血压患者的健康档案数据集中,研究分析不同患病因素与高血压的关联关系,并预测各类患病因素对高血压患病概率的影响。论文将南京市高淳区某卫生院体检管理系统及健康档案管理系统中的数据作为数据来源。首先在数据预处理的基础之上,基于关联规则算法研究BMI值、年龄、性别及日常行为习惯与高血压的关联关系。其次结合更多的日常行为习惯患病因素对健康档案数据集进行可视化分析,直观地了解各患病因素与高血压的先验关系,并利用XGBoost算法对高血压患病情况实现较好的预测结果。再次针对亚健康症状的居民的行为习惯与高血压患者的习惯存在相似部分,这会使模型造成较多的误判,影响高血压分类的准确性,构建AdaBoost与XGBoost串联混合预测模型,以有效分离亚健康人群与高血压人群,提高识别高血压病人的准确度。从次区别于以往对于单一慢病的研究方法,论文将高血压与多种慢病进行综合考虑。基于BP神经网络、随机森林、XGBoost、AdaBoost算法研究其他慢性疾病对高血压的影响,在对比各算法模型的性能度量结果后,发现XGBoost模型性能最佳并利用其得出其他慢性疾病对高血压影响的重要性排序。接着引入RR的概念,分析患其他慢性疾病人群得高血压的相对危险度,以及人群患单独一种病症的概率与多种病症的联合概率,探究各慢病间是否更容易伴随发病。最后设计了一个高血压患病因素分析系统,此系统有助于各个社区的公共卫生部门挖掘社区居民的日常行为习惯及其他慢性疾病与高血压之间的关联关系。不同地区的高血压患病因素存在差异性,使用此系统可直观地看出本地区各患病因素与高血压关联关系的大小排名,供各个社区的公卫部门制定个性化的高血压防治策略,也可类比应用在其他慢性疾病分析上,具有可操作性及推广性。