基于Hadoop的频繁模式挖掘算法研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:myplucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘领域的一个重要的研究问题,随着大数据时代的到来,数据库规模急剧增长。面对大数据时,现有的频繁模式挖掘算法往往会存在效率低下、空间伸缩性差等问题。解决这些问题的一个有效方法便是实现挖掘算法的并行化。云计算的提出为大数据的存储、计算和分析等问题提供了很好的解决思路,Hadoop作为云计算模式下的一个功能完善且高效的开源分布式系统架构已被广泛应用。本文在云计算环境下运用Hadoop平台对频繁模式挖掘算法进行研究,提出两个基于Hadoop的频繁模式挖掘算法MRdFIN和HFPM。MRdFIN算法是基于单机算法dFIN的并行化实现,采用深度优先搜索策略,同时设计了一种基于贪心思想的均衡分组策略有效地实现了整个集群的负载均衡。在各个独立节点上进行深度挖掘时,采用集合枚举树的搜索方式并结合项集间的闭合属性和父子等价的剪枝策略可有效地缩小搜索空间,提高算法效率。针对目前单一搜索策略的局限性,在MRdFIN的基础上,提出了一种基于混合挖掘策略的并行挖掘频繁模式的算法,HFPM。利用PamPh算法的混合搜索策略实现宽度搜索挖掘和深度搜索挖掘的相互转换和并行执行,充分发挥宽度优先搜索和深度优先搜索的优点。同时应用PEclat算法的混合垂直数据格式mixset,伺机选择垂直数据格式tidset和diffset来表示数据格式,有效地压缩存储空间。在此基础上,提出了一种基于有序搜索树的快速剪枝策略,对混合挖掘过程中不同阶段的宽度挖掘采用不同的剪枝技术,提高剪枝效率。提出了一种基于快速失败机制的交叉计数优化策略,提高了混合垂直数据格式的交叉运算效率。最终通过实验结果表明,MRdFIN和HFPM比已有的并行化频繁模式挖掘算法具有更高的效率和空间伸缩性。MRdFIN与HFPM相比较,其更注重于执行速度,而HFPM更适合于大规模的数据库挖掘任务。
其他文献
在快速发展的当今社会,机动车保有量越来越大。机动车辆在方便人们出行的同时不可避免的带来更多的交通事故,同时,随着人们保险意识的提高,机动车辆保险业务的市场愈加繁荣。
通过对青杉混交林中青钱柳平均木、亚优势木的生长过程进行分析,应用D,H有序样木Fisher分割法,将青钱柳的生长过程划分为4个阶段,1~3年为幼林生长期,4~14年为速生期,15~26年为干
在社会变革的大潮中 ,乡土作家贾平凹的价值取向显得无所适从 ,一方面在他的意识中有对传统文化的深深眷恋也有对落后、保守的不满 ,另一方面有对现代文化的勃勃生机的向往也
<正>针对棚户区改造和房地产市场面临的新形势,辽宁省全面推行棚改货币化安置,积极探索创新型货币化安置方式,促进棚改回迁房、保障房与存量房的有机衔接,保持房地产市场平稳
随着信息技术的不断发展,传统的教育研究方法需要与时俱进,通过先进的技术手段去研究和解释在教育中存在的各种现象和问题是现代教育研究中必不可少的环节。伴随着大数据概念
桑耶寺位于西藏山南地区扎囊县桑耶镇桑耶村,距离山南地区行署所在地泽当38公里,距离扎囊县城25公里海拔3676米,是国家级文物保护单位和国家级雅隆风景名胜区的主要景点之一
<正>近日我市进行了教学新秀选手的上课比赛,课题是"3.1.2指数函数"(苏教版必修1),笔者作为评委研读了6位选手的设计,听完课后深切地感受到概念教学的有效性与教师对课堂教学
伴随着全球化进程的日渐深入,人们愈加意识到传播媒介对于城市发展的重要作用。城市,不仅是人类群居生存的高级聚集形式,同时它也是人类由农业社会向工业社会、信息社会转变
地方戏曲的一个重要特点就是其与当地生态环境密切联系的原生态性:生态环境孕育了地方戏曲,生态环境的逐渐改善与恢复,对保护地方戏曲等非物质文化遗产具有重要作用。作者通
期刊