基于有向图的关联规则挖掘研究与改进

来源 :东南大学 | 被引量 : 0次 | 上传用户:shanghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘中的重要方法,目前主流的关联规则挖掘算法有Apriori算法、Eclat算法、Fp-growth算法等。上述算法存在如下问题:(1)Apriori算法存在大量I/O操作以及生成大量的候选项集;(2)对于Eclat算法,当事务数据库很大时,垂直数据结构<item,tid-set>无法存储于内存。当事务数据库中事务数很大时,tid-set长度很大,tid-set求交时间增加,算法性能下降;(3)Fp-growth算法需要频繁的构造条件模式基,且当支持度阈值较小时,Fp-tree的压缩能力有所下降,大量的冗余的存在使得算法性能开始下降。本文基于上述问题研究若干新技术来提升关联规则挖掘的效率。首先,本文通过阅读大量文献,研究已有算法的优缺点和思想方法,提出新的数据结构PE_Graph图:用有向图压缩存储事务数据库,能够用于快速搜索频繁项集;Tid-tree树:用类Fp-tree对tid-set重新编码,实现垂直数据结构的高度压缩,大大减小了tid-set求交时间:MP-tree树:通过频繁路径后缀实现PE_Graph图路径扩展的高效剪枝。接着,本文提出了频繁项集挖掘算法并对其进行了一系列的改进:(1)基于FPE_Graph图和Tid-tree树提出了两个新的频繁项集挖掘算法PF_search算法和PR search算法。理论分析及实验结果表明PF_search算法和PR_search算法存在大量的冗余路径扩展,且PR_search算法采用的逆向深度搜索策略优于PF_search算法采用的正向深度搜索策略,同时提出了FPE_Graph图的锥形分布假设。(2)为了对(1)中存在的冗余路径进行有效的剪枝,本文提出了新的数据结构MP-tree树,基于该树设计出了K路剪枝Fp-search算法,本文通过频繁率来刻画算法的剪枝性能,通过理论分析可以得出K路剪枝的剪枝能力e的理论值,从而量化了剪枝能力的评估,有效的证明算法剪枝性能和指导算法的改进。尽管K路剪枝Fp-search算法的时间性能非常优秀,但是它带来了额外的空间消耗,即MP-tree的空间规模O(N)(N为所有频繁项集的个数),当N值较大时,算法剪枝空间复杂度较高。(3)基于(2)中存在的问题,提出了减小剪枝空间复杂度的混合剪枝算法Fpmix2_search算法、Fpmixk_search算法,混合剪枝算法在保证时间性能的同时,大大降低了剪枝带来的额外空间消耗,但混合剪枝存在性能受节点划分方式的影响,且不适合并行化等缺点。(4)基于(3)中的问题,本文提出了新的算法FNMP-search算法,该算法剪枝空间复杂度极小,且能够实现高效的剪枝。(5)最后实现了Fp-search系列算法的并行化算法(本文称PF_search算法、PR_search算法、K路剪枝Fp-search算法、Fpmix2_search算法、Fpmixk_search算法、FNMP-search算法为Fp-search系列算法)。最后,通过五个经典的真实数据集对Fp-search系列算法性能有效性和高效性进行验证实验表明,Fp-search系列算法性能优于Fp-growth算法,且其中以FNMP-search算法最优,并行性能最优。
其他文献
变电站实施综合自动化后,全部告警信息上送到后台监控中心,告警信息都是按照时间顺序显示,发生事故时各种信号动作很频繁,值班人员容易遗漏重要的信号。因此,迫切需要在监控系统运
对基于结构化的Peer-to-Peer 覆盖网络的流媒体服务而言,如何构造一个拓扑感知、结点加入和退出时维护开销较小的流媒体体系是一个关键问题。DHT算法的最大问题是DHT的维护机
近年来,多核学习逐渐成为机器学习领域的研究热点之一,其通过多个候选核函数的组合来替代单个核函数,巧妙地将核函数的选择问题转化为核组合系数的学习问题,同时增强了核方法
工作流作为一种信息技术,通过提供相应的方法和软件系统,它可以支持一个组织不断改进业务过程以适应需求的快速多变。其主要目标是对业务过程中各步骤发生的先后次序,以及同
电子文档作为现代人们传递信息的一种高效媒体,越来越受到人们的重视。目前世界上流行的电子出版文档格式包括:PostScript、PDF等。文字是一份文档中记录信息的主要形式,所以
井下电视成像系统是一种专门用于获取井下直观图像资料的测井技术,近年来凭借其直观性、准确性和及时性已经成为重要的井下测井技术。目前国外对该技术的研究已经得到广泛应
计算机动画将计算机图形学与动画技术相结合而产生一种用计算机生成连续的具有虚拟真实感画面的技术。随着图形图像技术的不断发展,三维动画技术在影视广告、角色动画、游戏开
本文研究了用Benders分解方法来求解没有建厂费用的两种产品的选址问题.本文首先简单地介绍选址问题及多产品选址问题的一些相关问题,及其线性规划模型。第二章介绍了Benders算法及其背景。第三章用Benders算法具体求算两种产品选址问题。在Benders算法的迭代过程中,关键部分是求一个子问题的对偶最优解,在这里证明了在求解两种产品选址问题时,这个子问题的对偶解很容易求得.最后给出了一个例子,
随着信息技术的飞速发展,无线传感器网络(WirelessSensorNetworks,WSN)正成为传感器领域内一个新兴的研究方向。它集成了传感器、微机电系统和网络三大技术,是一种全新的的信息
无线电广播是一种重要的舆论载体,随着相关技术的发展和普及,对无线电资源的需求越来越大,需要有效的手段对其进行监管,以确保无线电广播的播出安全。无线电广播监测是一个涵