基于hadoop与加权模型的FP-growth算法的优化研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:amyzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称为知识发现,而关联规则挖掘是数据挖掘中的一个重要课题,从数据背后发现事物之间存在的关联。如今,关联规则挖掘技术已经广泛应用于金融、互联网、医疗等众多领域,学者们对于关联规则挖掘算法的研究热情更是日益高涨。传统的关联规则挖掘算法都默认事物具有相同的重要性且分布均匀,但是在实际的生产和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加权关联规则挖掘算法进行研究。本文在引进加权模型的条件下,主要针对经典的FP-growth算法进行了改进,一方面是采用有序FP树来代替传统FP树,进而减少存储空间的利用;另一方面是采用二维列表记录项的加权支持度,省去了在生成加权条件FP子树时对条件模式基的第一次遍历。基于关联规则挖掘中要处理的数据量越来越大的情况,Hadoop分布式系统架构应运而生,海量数据的处理不再是难题。本文采用Hadoop中的Map Reduce并行计算框架来处理数据集,并提出均衡化分组策略,避免了数据倾斜的产生,分布式数据处理降低了时间复杂度,能够高效地进行海量数据的关联规则挖掘。本文研究了基于hadoop和加权模型的FP-growth算法,详细地讲解了改进算法的实现步骤,经推导和实验验证,充分地证明了基于Map Reduce的加权有序FP算法要比传统的加权有序FP-growth算法能更好的适应大数据,大大缩短了整个算法的运行时间,效率得到提高。
其他文献
相位敏感光纤参量放大器(phase sensitive fiber optical parametric amplifier,PS-FOPA)是一种基于光纤四波混频过程的超低噪声光放大器。这种新型光放大器具有0dB的量子极
当今集成电路受到各种形式的恶意篡改,这种能够改变设计功能、导致核心信息泄露与拒绝服务的电路称之为硬件木马。硬件木马形式多样,芯片设计与制造的每个环节都可能被硬件木
张舒文,现任浙江音乐学院教师,2015年毕业于美国曼哈顿音乐学院,师从丹尼尔·爱普斯坦教授(Daniel Epstein),读书期间同时兼修作曲课程,并多次在全美各类钢琴比赛中获奖,毕业
随着大数据时代的到来,计算机集群被广泛用于人们的项目与学习之中;与此同时,集群部署复杂的问题也一直挥之不去。课题工作以一个目标检测项目为背景,基于容器的高复用与跨平
在涉及银行存款的财产犯罪中,存款占有归属的认定是一个核心问题,对罪与非罪、此罪与彼罪以及犯罪形态的既遂与未遂都起着决定性的作用。但是,由于占有本身长期以来就是一个
伴随着新课改与职业教育改革的发展,中等职业学校必须要从本校和本地的实际情况出发,开发与建设满足本地实际情况和本校校情的语文校本教材,才能更好地适应新形势下社会对中
无线传感器网络(wireless sensor network,WSN)作为一种感知和监测物理世界的分布式网络,因其具备规模大、自组织和可靠性高等特点,现在已经成熟地应用在军事、农业、工业和智能交通等领域。分布式参数估计是指在WSN中各节点针对各自所收集到的数据与邻居节点协同地估计出所感兴趣的参数。因无线传感器节点存在一些固有的局限性,如电源能量有限、计算能力有限和存储空间有限等缺点,使只需要存储
自农村经济体制改革以来,农村生产发展取得显著成就,但其中许多成就建立在牺牲资源和环境的基础上,导致农业生态环境污染日益严重。我国是世界农业大国和粮食大国,由于人口众
我们根据冯定的生平简介,可以将其思想历程简要分为马克思主义哲学思想的初成阶段、成熟阶段和再发展阶段。冯定对马克思主义哲学中国化的贡献,主要表现在三个方面:一是对马
公元前18世纪,《汉穆拉比法典》出现了遗赠一词,意味着被继承人的遗嘱权利得到了承认,这也是有据可查的附义务遗赠制度的溯源点。国家、集体组织或法定继承以外的人接受遗嘱人的遗嘱赠予成为了附义务遗赠的内容。之前,《中华人民共和国继承法》(以下简称为《继承法》)第21条虽确认了附义务遗赠,但并未形成完整的制度。而实践中遗赠人出于完成其生前未了心愿、保障相关人等利益以及使其遗产发挥效用等原因,会产生诸多附义
学位