论文部分内容阅读
随着大数据时代的来临,现如今,各行各业都离不开对数据的处理、分析,和发现新的学习模式。数据挖掘技术中包含的时间序列分析、关联分析,以及机器学习中分类、预测、聚类分析等方法也已经广泛应用到了现实生活中。慢性非传染性疾病对全球人类健康造成了巨大的影响以及严重的疾病负担,在中国,慢病已成为城乡居民的主导疾病。近年来,对慢病风险因素的研究也逐渐增多。本文针对高血压、糖尿病等27种慢病,有效利用了数据挖掘技术中的时间序列分析、聚类分析和关联规则挖掘技术、以及机器学习方法对慢病患者的住院医疗数据进行分析处理,为防治慢病提供科学依据。本文重点研究了大气污染对慢病患者的健康影响、慢病并发症的关联挖掘以及慢病住院患者的再入院风险预测,主要研究内容分为以下三个部分:(1)空气污染物与慢病的健康效应分析。利用广义相加模型(GAM),研究空气污染物对慢病患者的急性健康效应,并将年龄、性别以及季节等分层实验作为敏感性分析,确保了实验结果的稳定性。(2)基于聚类分析的慢病及其并发症的关联规则挖掘。本文结合聚类分析和关联规则挖掘技术进行了慢病并发症挖掘。首先利用三种聚类方法(k-mean++、平均连接法和离差平方和法)对27种慢病进行聚类处理,并在每个聚类簇中利用FP-growth算法获取慢病间并发症关系,建立了疾病网络;然后针对三种重点慢病在全疾病组间寻找共病组合。(3)基于机器学习的慢病住院患者再入院风险预测。本文基于逻辑回归以及随机森林、梯度提升树、light GBM三种集成学习模型建立了再入院风险预测基本模型。然后在基本模型进行了改进,提出了一种基于压缩存储的混合模型,结合树模型与逻辑回归模型,进一步提高了预测性能。