云平台下医疗大数据的FP-Growth算法的优化研究

被引量 : 0次 | 上传用户:woaiwojiaren5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗卫生行业的信息化发展事业的飞速发展,医疗数据已不是传统意义上大数据的数量上的“大”,其集成更加广泛、存储形式更加多样等等。医疗大数据具有巨大的潜在价值,尽管我国拥有着海量的大数据,但当下对数据的挖掘分析力度还不够,因此在各个医院大量信息还在“沉默不醒”。如何对日益增长的海量医疗数据进行有效的挖掘,显得尤为重要。本文采用Hadoop平台对挖掘关联规则算法进行研究和改进。自从韩家炜提出FP-Growth算法之后,许多国内外学者对该算法展开研究,并提出了很多改进算法,比如HPFP算法、MR-VER算法等。但仍然存在一些不足之处,例如,数据规模过大时无法构造基于内存的FP-tree、需要重复迭代遍历全局FP-tree造成资源浪费。针对此类问题,提出了基于数据划分且不生成全局FP-tree的PL-FPgrowth算法。该算法采用并行地挖掘局部FP-tree,解决了内存不足无法构造全局FP-tree的问题,在挖掘局部频繁项时,不需要挖掘其它节点数据信息,减少了节点间的通信开销。PL-FPgrowth算法运用MapReduce并行计算模型,但该算法存在构建和挖掘局部FP-tree时没有考虑局部支持度的问题。针对PL-FPgrowth算法的遗留问题,提出了负载均衡的LBPL-FPgrowth算法。该算法根据计算的节点最小支持度计数,在构建局部FP-tree时进行预剪枝,挖掘局部频繁项集时保留满足局部最小支持度计数的频繁项集。减少了构建和挖掘局部FP-tree的空间时间消耗,节省了传递非频繁项集的节点间通信开销。LBPL-FPgrowth算法运用MapReduce计算框架,在实际运行之前综合评估Hadoop集群节点的性能,考虑节点间性能差异,采用负载均衡的策略缩短集群整体工作响应时间。最后通过Hadoop平台,对PL-FPgrowth算法和LBPL-FPgrowth算法进行了多组实验,经过实验结果的对比分析,验证了算法的有效性和可扩展性。并证明了LBPL-FPgrowth算法执行效率更高。
其他文献
<正>Gelastic seizure is an uncommon type of seizure which is characterized by recurrent bouts of unprovoked and stereotyped laughter.It is commonly observed in
会议
疟疾是发展中国家尤其是非洲地区所面临的传染病中的头号杀手,严重威胁人类健康。喹啉类、二氢叶酸还原酶抑制剂以及青蒿素类药物是目前治疗疟疾的主要药物,具有良好的临床应
<正>神东煤炭分公司是中国神华能源股份公司的核心企业,是世界最大的现代化程度最高的井工开采煤炭企业。进入"十一五"以来,神东煤炭分公司的战略目标
通过阐述市政道路横断面设计的要求和实际问题,来研究解决市政道路横断面设计问题的要点。结果表明,要想提高市政道路的使用质量,需要根据道路要求的建设等级来进行横断面设
从基于无线传感器网络理论的无线网络控制系统的工业应用、控制方法设计、调度策略和通信协议的设计以及控制与调度协同设计等方面阐述了目前无线网络控制系统的主要研究内容
目的:探讨改良端侧吻合手术在动静脉内瘘术中的应用效果。方法:选择2013年-2016年80例血液透析患者作为研究对象,根据随机数字表法分为对照组(40例)和观察组(40例)。对照组采
鉴于双站雷达成像测试过程中各种可能的误差源,测试的RCS相位总会出现一定程度的偏差,通过分析信号相位噪声回波模型,模拟仿真了两种相位噪声情况下典型弹头目标的双站成像结
<正>现代教育的发展要求教师"不仅仅是人类文化的传递者,也应当是学生健康心理的塑造者,是学生健康心理的维护者"。班主任作为一班之"主",如果能以科学而有效的方法把握学生
目的探讨家庭医生与社区居民建立"1+1+1"组合签约服务模式的效果。方法选取2016年4月—2017年3月于上海市闵行区江川社区卫生服务中心进行"1+1+1"组合签约的居民1 044名,提供
对现代社会来说,孔子政治伦理思想的影响是复杂的、多方面的。他的"内圣外王"的领导思想、德主刑辅的教民思想以及对尊卑有序的领导体制的推崇,都是和现代政治理念相违背的。