论文部分内容阅读
关联规则挖掘作为数据挖掘技术重要的研究分支,其目的是从大量数据中发现数据项之间的相关关系。由于挖掘产生的规则形式简单、易于理解,关联规则技术的研究和应用得到了蓬勃发展。我国慢性病患者人数众多。为了有效利用慢性病患者的医疗数据,为预防和管控慢性病提供科学依据,本文选取了慢性病之一的高血压进行数据挖掘方面的研究。本文主要探究高血压患者体征与心血管风险水平之间的相关性,以及高血压与其他慢性病之间的关联性,重点完成了以下工作:(1)查阅国内外相关文献,分析了数据挖掘技术在慢性病等医疗领域的研究现状,总结了我国现阶段在医疗数据分析中存在的问题,确立了论文研究的主要内容及路线。(2)对数据挖掘技术及关联规则的相关理论进行阐述,重点研究了关联规则挖掘中的Apriori算法,分析了该算法在性能方面的瓶颈,并探讨了现有的优化方法,为算法的改进拓宽了思路。(3)针对Apriori算法运行效率上的缺陷,进行如下改进:采用聚簇矩阵压缩存储事务数据库,避免多次扫描原有的事务库;引入事先剪枝策略以产生较少候选项集,避免频繁项目集的大量连接的开销;添加慢性病类型这一约束条件,减少频繁项目集和无关规则的产生。最后通过Matlab仿真实验对比分析,证明了改进算法能够有效降低候选项目集的数量,并提高运行效率。(4)设计慢性病数据挖掘方案,将改进的Apriori算法应用到对高血压患者的体检数据处理中。对数据进行预处理,设置最小支持度和置信度阈值,给定约束和相关度等条件,进行关联规则挖掘。利用Logistic回归分析方法,探究慢性病之间的相关性,将分析结果与数据挖掘产生的规则对照,发现两种方法产生的结果相吻合,证实了实验的有效性。实验最终挖掘出符合医学规律的关联规则,通过它们可以准确判断高血压患者的心血管风险水平,预估所患慢性病的并发症,为医生的诊断提供了有价值的参考,为实现自动化判诊提供了理论研究基础。(5)开发了慢性病数据挖掘系统,并将改进的Apriori算法融入。系统能够探究慢性病医疗数据背后隐藏的知识,辅助医生决策,具有一定的实用价值。