数据挖掘中频繁集的产生算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:kenshingob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database),在最近几年里已被数据库界所广泛研究,其中关联规则(Association Rules)是挖掘的一个重要的问题。 关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。 本文首先介绍了数据挖掘的相关基本知识,常用的归约方法和关联规则算法的一般生成过程。接着,详细讨论了数据仓库的相关理论,既在宏观上讨论了数据仓库面向的对象和使用的方法,又给出频繁集产生算法的实现。并给出了详细的数据结构和算法实现的细节,比较了它与常规频繁集算法的区别,指出了优点所在。 文章中实现的FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比,FP-growth算法的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。在算法实现过程中,采用了全序元素的组织方式,提高了程序执行的速度,同时也考虑了空间占用的问题,尤其是对内在和管理问题。程序采用了C++的标准模板库(STL,Standard Template Library),涉及到的数据结构有向量,集合和快速排序算法等。 就该算法对数据挖掘的作用来说,一方面,它可以给研究数据挖掘关联规则的科研人员提供思路,供科研人员参考,另一方面,如果将其整合到其它现有的数据挖掘工具中,也可以大大提高查询的效率。
其他文献
随着信息技术的飞速发展和信息设备的广泛应用,信息安全已经成为影响国家和社会的关键问题。而安全高效的密码系统则是解决信息安全问题的基础。椭圆曲线密码系统,与RSA、DSA
随着网络多媒体技术的广泛应用和发展,国际互联网已成为传播各种知识和信息的重要途径,但随之而来的盗版和侵权行为也越来越猖獗。近年来音频数字水印技术作为一种新兴的防盗
句法分析是自然语言处理的一个基本问题,也是目前急待解决的一个问题。大多数现有的句法分析是基于统计方法的,基于统计的句法分析模型需要大规模的训练样本,而标注一个大规
本文对重构中代码味道自动化检测技术进行了研究。主要有以下几个方面: 1.分析了代码味道的涵义、特征和引发原因,并且根据关注的角度和层次将其分成类内部结构型、类内部行
近年来,自动指纹识别技术已成为学术界的一个研究热点,已有不少国内外学者对指纹识别技术作了大量研究。但是,在目前的指纹识别算法研究过程中,算法研究工作者只能根据自己算法研
万维网(WWW)技术的不断发展促进了Web信息检索(Web Information Retrieval,WIR)和Web信息抽取技术(Web Information Extraction,WIE)的迅猛发展,如何从Web中抽取相关信息引起
人体运动的视觉分析是近年来计算机视觉领域中备受关注的前沿方向,人体轮廓的获取技术是其中的关键问题,可以广泛应用在各个领域。本文提出了一个通用的基于体育运动视频的人
网格技术是继Internet、Web后的新一代网络技术,代表着现有网络技术的发展方向。网格是国家级高性能计算和信息服务的基础设施,它的目标是将地理上分散的异构的各种资源互连并
基于MPLS流量工程的路由算法研究有很多,但是一般都只考虑了有带宽要求的业务。传统的流量工程路由算法,如PBR、DBR、MIRA等,都是针对有带宽保证业务的路由选择算法,即都只能
随着定位技术与无线通信技术的迅速发展,对移动对象进行跟踪与定位变得可行与必要。移动对象信息管理在交通监测,舰船导航,移动计算,气象预测,电子战场等诸多领域有着广泛的