改进的关联规则算法在慢性病数据挖掘中的研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:sslplq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘技术重要的研究分支,其目的是从大量数据中发现数据项之间的相关关系。由于挖掘产生的规则形式简单、易于理解,关联规则技术的研究和应用得到了蓬勃发展。我国慢性病患者人数众多。为了有效利用慢性病患者的医疗数据,为预防和管控慢性病提供科学依据,本文选取了慢性病之一的高血压进行数据挖掘方面的研究。本文主要探究高血压患者体征与心血管风险水平之间的相关性,以及高血压与其他慢性病之间的关联性,重点完成了以下工作:(1)查阅国内外相关文献,分析了数据挖掘技术在慢性病等医疗领域的研究现状,总结了我国现阶段在医疗数据分析中存在的问题,确立了论文研究的主要内容及路线。(2)对数据挖掘技术及关联规则的相关理论进行阐述,重点研究了关联规则挖掘中的Apriori算法,分析了该算法在性能方面的瓶颈,并探讨了现有的优化方法,为算法的改进拓宽了思路。(3)针对Apriori算法运行效率上的缺陷,进行如下改进:采用聚簇矩阵压缩存储事务数据库,避免多次扫描原有的事务库;引入事先剪枝策略以产生较少候选项集,避免频繁项目集的大量连接的开销;添加慢性病类型这一约束条件,减少频繁项目集和无关规则的产生。最后通过Matlab仿真实验对比分析,证明了改进算法能够有效降低候选项目集的数量,并提高运行效率。(4)设计慢性病数据挖掘方案,将改进的Apriori算法应用到对高血压患者的体检数据处理中。对数据进行预处理,设置最小支持度和置信度阈值,给定约束和相关度等条件,进行关联规则挖掘。利用Logistic回归分析方法,探究慢性病之间的相关性,将分析结果与数据挖掘产生的规则对照,发现两种方法产生的结果相吻合,证实了实验的有效性。实验最终挖掘出符合医学规律的关联规则,通过它们可以准确判断高血压患者的心血管风险水平,预估所患慢性病的并发症,为医生的诊断提供了有价值的参考,为实现自动化判诊提供了理论研究基础。(5)开发了慢性病数据挖掘系统,并将改进的Apriori算法融入。系统能够探究慢性病医疗数据背后隐藏的知识,辅助医生决策,具有一定的实用价值。
其他文献
经过第二次世界大战的洗礼,英国舆论的左转使凯恩斯主义和工党的社会主义日益深入人心。随后这两种思潮便成为1945—1951年工党政府内政改革的指导思想。
白芸豆α-淀粉酶抑制剂(α-AI)是预防和控制糖尿病和肥胖症的天然物质。白芸豆中胰蛋白酶抑制剂(TI)和植物凝集素(PHA)会影响α-AI的生理作用和生物安全性。低TI和PHA活力的
Sarker和Parija(1996)建立了生产系统最优生产批量和原材料订购决策模型。然而他们的模型仅局限于单阶段生产系统,本文将他们的模型扩展到多阶段生产系统,我们首先建立了使整
化学式为A2B2O7的材料主要有焦绿石和层状钙钛矿两种不同的晶体结构,都是非常重要的功能材料。在焦绿石结构的Cd2B2O7(B=Nb, Ta)中,Cd2Nb2O7由于其介电常数可通过外加电场来
目的探讨综合护理干预模式在地中海贫血孕产妇临床护理中的应用效果。方法选择2016年1月—2017年9月本院产科收治的地中海贫血孕产妇80例,将孕产妇随机等分为对照组和观察组,
<正> 上海龙华医院陈以平教授从事肾病临床工作40余载,尤其在治疗膜性肾病方面更有独到之处,对曾用激素或免疫抑制剂无效,或激素效果差正在减量的膜性肾病患者,取得满意疗效
研究了未变质和稀土Pr变质ZL205合金在不同温度和外加应力条件下的显微形貌演变规律,分析了Pr变质ZL205合金高温蠕变作用机制。结果表明,在相同蠕变温度和外加应力作用下,Pr
目的 了解宋内菌感染后对心脏的损害及其转归。方法 北京市某中学的学生群体性急性痢疾,经检测为宋内菌感染,部分并不同程度的心肌损害,对其进行分析。结果 经临床诊断心肌炎
为验证将新型冲刷防护装置"模袋浮板"运用于管道冲刷的防护效果,建立了主流-渗流耦合模型,模拟单向流作用下管道附近的主流场和渗流场,验证了模袋浮板装置的有效性,研究了模
苏里格气田低渗透和特低渗透油气地质储量占90%以上,新井要获得产能必须进行储层改造。文章通过室内试验,优选出了适用于苏77、召51区块的暂堵材料,确定了暂堵剂的合理用量。