基于FP-树的关联规则数据挖掘方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:whb35750
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术可以从数据仓库中的历史数据里提取出有价值的信息。关联规则数据挖掘是其中一个重要研究方向,挖掘的关键是选取恰当的算法,算法的优劣直接影响到挖掘的效率。迄今为止已提出许多关联规则挖掘算法,大多在单维布尔型关联规则挖掘的Apriori算法基础上进行改进,FP-树技术就是其中的典型。 本文对关联规则挖掘算法进行了研究。首先对数据挖掘技术做了简要描述,其次对Apriori算法和FP-增长算法进行了系统的分析和总结,讨论了提高有效性的策略。在此基础上,提出了一组结合FP-树和FP-数组技术的改进算法。 对于频繁项集挖掘,在FP-增长算法基础上提出了一种FPgrowth*改进算法,通过改变存储方式,增加FP-数组结构,减少建立条件FP-树时所需的扫描次数,省略了FP-树的遍历时间;对于最大频繁项集挖掘,在FP-树结构的基础上提出了MFI-树结构,并结合MFI-树结构与FP-数组技术提出了FPmax*算法,用MFI-树保存已发现的MFI路径,同时为条件FP-树构造局部MFI-树,从而减少频繁项集的比较时间;对于封闭频繁项集,在FP-树结构的基础上提出了CFI-树结构,并结合CFI-树结构与FP-数组技术提出了一种FPclose算法,CFI-树包含已发现的封闭频繁项集及其计数信息,新发现的频繁项集只需要与CFI-树中结点进行比较,即可对其封闭性进行判断,从而提高了效率。 最后,用不同的数据集对算法的运行时间、内存消耗和可伸缩性进行了实验分析,证明了算法的有效性。
其他文献
量子计算机的提出是源于经典计算机的两大极限:物理极限—集成度越高,芯片内部量子现象越显著;性能极限—能耗和散热限制了集成度的提高。研究表明,芯片耗能产生于计算过程中的
一个成熟的分布式实时系统必须具有高可靠性,容错作为保障高可靠性的重要手段,已成为分布式实时系统的基本特性。而现有的一些分布式实时系统的实时容错方法存在要求与限制太
以在Windows2000下开发基于嵌入式微处理器的ARINC429通信板卡的驱动程序为目的,作者撰写了本论文。 在这个过程中,作者深入了解了嵌入式开发的整个流程,对硬件设计有了一
控制器是铁路公寓电脑叫班系统的核心组成部分。目前,国内所使用的控制器均为模拟系统。本文所讨论的数字式控制器的核心部分是数字系统,它采用数字信号处理理论及混合信号微控
内窥镜技术是一种需侵入人体,在人体中能来回游走并做医学观察诊断和手术治疗的医疗手段,由于其手术过程创伤面小,病人术后康复迅速,在国内外广泛用于临床诊断和治疗。但这种
计算机网络中,传统的路由是根据IP包的目的地址进行路由选择。在实际的使用中,有时我们希望不仅可以根据IP包的目的地址进行路由,而且可以根据IP包的源地址或其它信息进行路
随着通信技术的高速发展,第三代移动通信系统(3G)技术的日益成熟并进入商用,3G网络管理系统也成为移动通信网络建设中的焦点。3G网络管理主要集中在对网络环境的管理和对网络
业务运营支撑系统(Business&OperationSupportingSystem,简称BOSS系统)是运营商赖以生存的关键系统,它借助IT手段实现对电信网络和电信业务的管理,以达到支撑和改善运营的目标。
进入后PC时代,计算机技术已渗透到各个领域,嵌入式系统将成为未来社会计算机应用的主流,出现在社会生产、生活的各个领域,对人类的影响日益严重。嵌入式系统的质量和可靠性会
如今,被认为是推动下一代网络发展的一项核心技术——网络处理器NP(Network Processor)已开始越来越多地受到业界地关注,网络处理器的出现被认为是通信半导体工业发展的一场