基于云计算平台的并行FP-Growth挖掘算法研究与应用

来源 :南京航空航天大学 | 被引量 : 3次 | 上传用户:gongfangqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人们正面临着数据处理难的问题,拥有海量的数据资源,却不能有效地加以分析利用,而导致这一问题的主要原因就是传统的处理方法不再适用于大数据场景。近年来,云计算技术快速发展,衍生出众多优秀的云计算平台。这些云计算平台为大数据的处理提供了一种有效的解决方案,可以作为研究并行挖掘算法以及开展算法应用的运行基础。首先,本文利用多台计算机部署Hadoop、Spark的核心组件,从而搭建一个云计算平台,实现对集群的存储空间和计算能力进行统一管理,为并行数据挖掘算法的实现与运行提供条件。考虑到关联规则算法是一种实用价值较高的数据挖掘算法,被应用到多种行业中,尤其在医疗数据的价值挖掘中有重要作用。为此,本文选取广泛使用的并行FP-Growth算法作为研究对象,针对FP-Growth算法中存在时间复杂度较高的问题,提出一种优化的链头表结构,降低FP-Growth在单节点上的处理时间;而针对算法在并行化过程中存在的负载不均衡问题,在均衡分组策略中引入一种新的计算量模型,实现各组之间负载的均衡,尽量避免并行过程中因计算任务分配不均而产生的节点空闲与资源浪费等问题,从而提升并行FP-Growth算法处理海量数据的能力和效率。同时,本文在搭建的云计算平台上分别设计了优化链头表结构的FP-Growth算法和优化负载均衡策略的并行FP-Growth算法的对比实验,验证了优化算法的优越性。最后,本文应用优化的并行FP-Growth算法挖掘医疗数据中的关联规则,从而验证了该算法在实际应用中的有效性;同时,设计了一个易操作的医疗数据挖掘系统,方便非专业人员进行关联规则分析。
其他文献
近年来随着移动互联网、物联网、云计算的快速应用,车联网也得到了蓬勃发展。车联网的迅速发展要求车载终端能够快速更新,然而传统车载终端开发周期大于36个月,甚至其开发还没完成就已经过时了。另外,传统车载终端系统非常封闭,仅支持离线音乐和导航功能。和智能手机相比,传统车载终端的用户体验较差,因此,用户倾向于使用智能手机来实现在线导航和车载娱乐应用。然而,智能手机和车辆电子电器系统缺乏互通性,用户无法通过
目的:探讨丙基硫氧嘧啶(PTU)与甲巯咪唑(MMI)对治疗妊娠合并甲状腺功能亢进的疗效、妊娠结局以及对胎儿的影响。方法:选择2013年3月至2015年3月于我院确诊并接受治疗的90例妊
紫菜是我国海藻产业的重要组成部分,随着栽培产量和密度的增加,紫菜病害发生严重,成为重影响产业发展的瓶颈。我国紫菜病害研究起步较晚、基础薄弱,病害种类和病原种类不清楚,病害发生机制不明,病害防控手段缺乏,各方面的工作亟待开展。本文初步调查了条斑紫菜(Pyropia yezoensis)苗期和栽培期的病害,分离鉴定了苗期贝壳丝状体的可培养微生物,进一步分析了贝壳丝状体黄斑病的发病过程和病原种类;建立了
“柴陈泽泻汤”又名靖眩汤,为四川经方大师江尔逊之经验方,对治疗眩晕诸证有桴鼓之效。该方诸法并用,可清化邪之源头,蠲已成之痰浊,防木郁乘土,培土以制水,御水饮上逆,组方精
过渡金属(Cu,Fe,Mo)氧化物和g-C3N4基复合材料是工业生产中的重要催化剂,广泛应用于CO氧化、水汽变换、太阳能电池及光催化反应中。我们成功合成了多种CuO/?-Fe2O3、MoO3-g-C3N
在作家的队伍中,有许多队员都是来自乡村,但在批评家的队伍中,更多的队员是来自于城市。究其缘南,大约是作家更易于野生野长,所谓的自学而成才,如许多人说的那样,好像作家果真不需读
近年来,能源危机和环境污染的问题日渐突出,可再生能源和分布式能源等新能源领域受到了越来越广泛的关注。分布式电源能够有效提高供电可靠性及供电质量,降低系统成本,对于解决偏远地区分布式供电的问题具有重要意义。然而,分布式发电系统缺乏传统发电机所具有的惯性和阻尼,间歇性的可再生能源和不可预测的负荷变化严重影响独立微网系统的稳定性。因此,本文研究含有惯量和阻尼特性的Synchronverter虚拟同步机并
纯水液压传动技术已经成为现代液压界关注的热点。液压传动系统中的溢流阀是液压系统中的关键部件,起保障整个系统安全稳定的作用。本文采用RNG k-ε湍流模型,应用CFD软件FLU
植物器官发育的调控是一个基本的发育生物学过程,受到遗传和环境因素的影响,对这一领域的研究是植物发育生物学领域的研究热点。本文利用模式植物拟南芥的花瓣为研究材料,通