基于Spark的改进关联规则算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:tanscuc2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代数据资源越来越丰富,数据的呈现方式更多,如何将这些数据整合并进行科学分析,发现事务之间意想不到的关联,得出有价值的商业与科研数据具有重要意义,从大数据集中提取有用的信息是最重要的研究问题之一,而关联规则挖掘可以很好的实现这个目的。针对传统关联规则算法受限于计算机硬件限制无法处理海量数据的问题,论文改进了两种关联规则算法(Apriori和FP-growth),离线安装了Cloudera Manager5和CDH5并启动包括Hive,HBase,Impala,Spark等服务,通过实验验证了两种改进算法的有效性并对算法的集群可伸缩性和加速比方面进行了测试。具体研究内容如下:(1)Apriori改进算法(Spark+IApriori算法)。针对关联规则Apriori算法在信息爆炸时代面对海量数据时具有计算周期长,算法效率低等问题,论文将数据以key-value数据结构存储,在连接操作前进行剪枝操作,并且改变剪枝操作的判定条件,降低数据遍历次数;同时将改进算法IApriori与基于内存的大数据并行计算处理框架Apache Spark相结合,改进为一种基于Spark的Apriori改进算法(Spark+IApriori)。实验结果表明,Spark+IApriori算法在数据伸缩性和加速比方面都优于Spark框架下的Apriori算法。(2)FP-growth改进算法(SIFP算法)。FP-growth算法通过树形FP-tree树形结构提高挖掘效率,但FP-tree内存空间开销大,数据洪流下更凸显了算法的局限性,针对FP-growth算法的固有缺陷,论文在头指针表Header Table中添加HashMap类型和Flag变量,HashMap类型实现key-value数据结构存储,Flag变量判定FP-tree是否为单路径,然后将数据分块防止FP-tree过大导致内存溢出,同时并将改进算法与Spark计算框架相结合,改进为一种基于Spark的SIFP算法。实验验证了SIFP算法在运行效率上优于Spark+IApriori算法。
其他文献
梁家河大学问,蕴含着习近平新时代中国特色社会主义思想的实践起点、思想起点、信仰起点、价值起点,值得我们深入探求、深入学习、深入践行。认真研读纪实文学《梁家河》,就要汲
报纸
2019年春节,内蒙古自治区呼和浩特市城管因为规范贴春联和部分城管队员大年初七撕对联成为网络热搜。面对公众的不满,呼和浩特市城管局回应,此次并非禁止市民张贴春联,而是要
大学生思想政治工作是高校教书育人的一项重要内容。文章通过对当代青年大学生的心理特征的分析,结合高校实际,就如何加强高校大学生的思想政治工作提出了几点见解。
新形势下病历档案具有重要价值,利用范围、利用量不断扩大。旧的管理模式和观念不断适应需求。更新观念,改变职能,完善各项管理制度,通过不断学习才能做好新时期的病历档案管理工
数据挖掘是一种从海量数据中提取可信的、有效的并能被人理解的处理信息过程,它解决了传统的统计方法无法有效地分析海量数据的问题。文章首先介绍了数据挖掘技术的基本原理,
农业是国民经济的基础,搞好农业是当前全党全国工作的重点之一。巩固农村现有基本经营制度,积极探索和创新集约化、专业化、组织化、社会化的新型农业经营体系,不仅是实现“四化
报纸
当前我国信息技术不断发展,创新多媒体教学技术已经广泛应用于课堂教学过程中。在学生英语学习过程中,影响学生知识探究的因素是多元的,既有学生的主观因素,也有外在的客观因
绿地变成停车场,又从停车场变回绿地,这里到底发生了什么?在蚌埠市宝龙城市广场延安路西侧,近期出现一片“新”建的街头绿地,刚刚种下的植物为冬日的街头增添了几分绿意。201
金源大酒店座落于长沙市南北交通主干道芙蓉中路465—467号,是湖南省经济建设投资公司下属的按四星级标准建设并由国际著名旅游管理公司——上海锦江饭店全方位经营管理的大
目的:建立氯化铵甘草合剂微生物限度检查的方法。方法:细菌、霉菌及酵母菌计数和控制菌检查均采用常规法进行验证.结果:用常规法检查细菌、霉菌、酵母菌,菌落回收率均高于70%,用常规