频繁模式增长算法FP-growth的优化研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:cumt12791
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。FP-growth算法是一种基于模式增长的频繁模式挖掘算法,避免了大量候选项集的产生,只需扫描数据库两次。效率比Apriori算法快一个数量级。然而,此算法在挖掘频繁模式时不可避免地需要递归地创建附加数据结构(如条件FP-tree,项头表),并且每当模式增长时就要创建一次。动态地创建如此大量的附加数据结构,将耗费大量时间和空间。  本文提出了 FP-growth算法的一种优化方法:基于升序 FP-tree的挖掘算法SAFP-merge。其通过采用基于支持度计数升序排列的频繁1-项集的构造策略,和引入第一棵子树及扩展频繁集等概念,使整个挖掘过程直接在初始生成的升序FP-tree中进行,而不需要另外递归创建条件FP-tree和项头表。挖掘时,首先挖掘第一棵子树;然后将第一棵子树根结点的所有分支与升序FP-tree的其他分支归并,并同时剪掉第一棵子树;最后对新的升序FP-tree递归调用挖掘过程,直到树只有一棵子树,且已经挖掘完该子树。为了验证SAFP-merge算法的性能,我们在一定的实验条件下对优化算法SAFP-merge和FP-growth算法进行了测试,实验结果表明:使用相同的稀疏数据集,优化算法速度是 FP-growth算法的3倍,而所需要的存储空间比FP-growth算法节省了1/3;对于稠密数据集,优化算法的优势更加显著。  目前数据挖掘技术在国外应用非常广泛,但是国内在这方面的发展相对缓慢。作者在对本文提出和研究的各种算法进行比较和测试,这些工作也只是对数据挖掘中关联规则的相关算法进行的较为深入的研究,在今后的工作中将更加深化和具体地分析和研究。
其他文献
现在的软件越来越复杂也越来越强大。这导致了软件系统在规模上和复杂性上的急剧增长。相应地,开发这些软件需要的人力也在增加。在这种情况下,我们需要妥善处理开发人员之间的
本文提出了一种新颖的安全评估方法——面向对象的安全评估方法。由于当前评估理论的匮乏,导致实际中相当多的安全评估不规范,随意,低效率。机构需要标准化的评估方法来指导相关
本论文是在过程神经元网络基本模型和概念的基础上,对过程神经元网络理论及其学习算法进行进一步的研究.理论部分主要在一些不同的应用背景下建立过程神经元网络的各种模型,
电视跟踪是自行火炮武器系统的关键部件.本文根据自行火炮武器系统电视跟踪服务目标的特点,设计了一个以图像处理技术为核心的电视跟踪模拟器.该电视跟踪模拟器首先基于TCP/I
本文主要研究基于学习矢量量化模型的模式分类方法,以解决人工嗅觉系统面临的大规模学习问题.针对基本矢量量化模板欠利用的问题,本文提出了一种基于自组织特征映射神经网络
计算机技术、微电子技术、低功耗多传感器技术和无线通信等技术的迅猛发展,推动了无线传感器网络的快速发展。无线传感器网络由于自身的优点,引起了国内外学术界和社会的广泛
随着社会信息化水平的提高,以IC卡为关键技术的“一卡通”系统将在各行业信息管理系统建设中扮演越来越重要的角色。  所谓“一卡通”系统,一般认为就是以IC卡技术为核心,结合
数据仓库的出现和发展是计算机应用发展到一定阶段的必然产物。其权威的定义是:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”
在计算机技术日渐普及的今天,各单位都迫切需要一套能够实现其业务流程自动化的办公系统,工作流技术就是近年来许多开发人员和用户关注的一种办公系统开发技术。将工作流技术融
本文在概述了数据挖掘基本原理的基础上,首先介绍了Web挖掘的基本概念、分类和面临的挑战,然后重点讨论了Web日志挖掘,即通过用户对站点的使用情况分析有价值的信息.介绍了We