云环境下基于医疗大数据的Apriori算法研究

来源 :华北水利水电大学 | 被引量 : 2次 | 上传用户:baimn1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗卫生事业的进步与发展,医院产生的医疗数据日益增多,医疗大数据中蕴含着宝贵的信息需要去挖掘,海量的医疗数据使得传统的数据挖掘方法已不再适用,如何利用数据挖掘技术对这些庞大的数据进行挖掘分析,找出其中有价值的规律,为疾病的预防和治疗提供帮助已成为迫在眉睫的问题。云计算为实现这一目标提供了重要的技术保证。开源云计算框架Hadoop的分布式存储和计算性能使其成为解决这一问题的主流方案,必定能够为医疗数据挖掘技术的发展提供有力的支持与保障。基于以上背景,本文对Hadoop技术以及数据挖掘相关知识进行总结,对基于Hadoop的数据挖掘系统进行详细分析,对典型的关联规则算法展开研究,具体的研究工作包括以下几个方面:针对传统的Apriori算法需要多次扫描数据库,串行化效率低下的问题,通过划分的思想对传统Apriori算法进行改进,在每次算法迭代中,通过计算事务长度减少比较次数。将改进算法与MapReduce模型相结合,对改进后的算法进行MapReduce设计,提出一种云环境下的P_Apriori_BP算法,对P_Apriori_BP算法进行性能分析,分析表明P_Apriori_BP算法有效的减少了数据库扫描次数,解决了算法串行化效率低下的问题。针对P_Apriori_BP算法生成频繁项集效率低下问题,利用矩阵思想将事务数据库转化为布尔矩阵,对事务存储方式和矩阵行列进行压缩改进、对算法结束条件进行优化,并移植到Hadoop平台上实现MapReduce并行化处理,提出一种云环境下的Apriori_PBCM算法,对Apriori_PBCM算法进行性能分析。分析表明Apriori_PBCM算法简化了支持度的计算方式,有效缩小了事务规模和算法迭代次数,解决了生成频繁项集效率低下问题。最后通过Hadoop平台对P_Apriori_BP算法和Apriori_PBCM算法进行了实验验证和效率对比分析,证明了它们的有效性和优越性。
其他文献
机电一体化是将机械装置与电子化设计及软件结合所构成的系统的总称。随着煤矿生产不断向深部水平发展,作为矿山综合自动化基础的煤矿机电一体化技术,在煤矿生产的每个过程都
<正>静水流深,在广袤神秘的深海,海水的运动有着怎样的规律?海温变化如何影响气候?如何更加清晰地观测海洋的动态并进行准确的预报?一系列未解的谜题,牵动着山东科技工作者们
通过对市场上整机质量在20~40 t的主流中型履带式反铲液压挖掘机主要尺寸参数进行搜集和整理,发现其尺寸参数和整机质量之间存在一定的关系。运用MATLAB软件进行曲线拟合,并
2014年4月15日,“中国职工教育和职业培训协会与欧特克软件(亚太)有限公司职业教育培训合作备忘录”签约仪式在人力资源和社会保障部会议室举行。签约仪式由中国就业培训技术
钢坝在城市景观水闸设施中被广泛使用,但在河道与机房的隔断墙中埋设的穿墙管漏水严重,穿墙管的密封结构、圆周密封值得研究。由于钢坝的底轴同轴度的跳动较大,底轴长10m~60m
自我控制是指个体自主调节行为,使其与个人价值和社会期望相匹配的能力.平衡需求是产生自我控制的根本原因.平衡需求有两种形式,一是主客观的平衡.它要求个体自觉地接受社会
统计分析中发现,若加大对大案、要案的查处力度,会促使高层腐败案件下降,但同时腐败的覆盖面会随着单笔额度下降而呈上升趋势。若不能在反腐败的制度建设中有所作为的话,高薪
天津地铁5号线(下瓦房站、西南楼站、文化中心站)内檐装饰装修项目中,站厅及站台墙页大面积釆用了大块铝板饰面。该项目特点之一是装修实施时间非常短,工期极其紧张。根据项
2008年12月18日至19日,为期两天的广东省中山市第十届中小学体育教学调教观摩评优课在中山市古镇镇古一小学举行。据悉:此次活动的主题是:大胆改革,突出主体,突出活字,突出新字,讲求
植物化学调控技术是提高作物产量的一项重要的技术措施,研究植物生长调节剂2-N,N-二乙氨基乙基己酸酯(DTA-6)对甜叶菊形态建成、酶活性、莱鲍迪甙A与甜菊醇糖苷比值(ReA/ST)的影