论文部分内容阅读
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。 关联规则概念最早是由在IBM工作的Rakesh Agrawal博士于1993年提出的,用于刻划事务数据库中交易项目之间的关系,即频繁关系。其研究已有10余年时间并取得了很多成果,但还有很多问题亟待解决。本文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了研究,取得了一定的研究成果。 本文对关联规则挖掘的经典算法:Apriori、AprioriTid、AprioriHybrid算法、Apriori RFM算法、划分的算法和取样算法进行了研究,针对上述算法的不足提出了一种快速挖掘关联规则的算法AprioriTidHybrid。算法以经典的Apriori和AprioriTid为基础,针对其特点对算法提出了改进,在最初的阶段用Apriori算法,在后来的扫描中用AprioriTid;考虑了(?)可能比源数据库大的情况,在L2的基础上产生,而不是在传统的C2的基础上产生(?),大大地压缩了(?)的规模;采用一种更为高效的DAgen算法代替Apriorigen来产生候选项集。实验结果表明,较Apriori和AprioriTid算法的性能有明显的提高。 本文提出的基于Apriori、AprioriTid的取样关联规则算法研究创新之处在于,提出了一种高效的关联规则挖掘算法FASTA:采用经典的FAST的算法思想选取样本,使得选取的样本更具有典型性和精确性;对所选取的样本用本文提出的AprioriTidHybrid进行关联规则的挖掘。在实验中同其它的算法进行了比较,改进的算法提高了挖掘性能。