论文部分内容阅读
随着医疗卫生事业的进步与发展,医院产生的医疗数据日益增多,医疗大数据中蕴含着宝贵的信息需要去挖掘,海量的医疗数据使得传统的数据挖掘方法已不再适用,如何利用数据挖掘技术对这些庞大的数据进行挖掘分析,找出其中有价值的规律,为疾病的预防和治疗提供帮助已成为迫在眉睫的问题。云计算为实现这一目标提供了重要的技术保证。开源云计算框架Hadoop的分布式存储和计算性能使其成为解决这一问题的主流方案,必定能够为医疗数据挖掘技术的发展提供有力的支持与保障。基于以上背景,本文对Hadoop技术以及数据挖掘相关知识进行总结,对基于Hadoop的数据挖掘系统进行详细分析,对典型的关联规则算法展开研究,具体的研究工作包括以下几个方面:针对传统的Apriori算法需要多次扫描数据库,串行化效率低下的问题,通过划分的思想对传统Apriori算法进行改进,在每次算法迭代中,通过计算事务长度减少比较次数。将改进算法与MapReduce模型相结合,对改进后的算法进行MapReduce设计,提出一种云环境下的P_Apriori_BP算法,对P_Apriori_BP算法进行性能分析,分析表明P_Apriori_BP算法有效的减少了数据库扫描次数,解决了算法串行化效率低下的问题。针对P_Apriori_BP算法生成频繁项集效率低下问题,利用矩阵思想将事务数据库转化为布尔矩阵,对事务存储方式和矩阵行列进行压缩改进、对算法结束条件进行优化,并移植到Hadoop平台上实现MapReduce并行化处理,提出一种云环境下的Apriori_PBCM算法,对Apriori_PBCM算法进行性能分析。分析表明Apriori_PBCM算法简化了支持度的计算方式,有效缩小了事务规模和算法迭代次数,解决了生成频繁项集效率低下问题。最后通过Hadoop平台对P_Apriori_BP算法和Apriori_PBCM算法进行了实验验证和效率对比分析,证明了它们的有效性和优越性。