论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。关联规则是数据挖掘的一个主要研究内容。关联规则描述了给定数据项集之间的有趣联系。目前,已经提出了许多挖掘关联规则的算法,其中最著名的是Apriori算法及其变形。针对Apriori算法中频繁项集产生效率低和产生无用规则、丢失有用规则两个核心问题,本文提出了两种改进的Apriori算法,它们能有效提高频繁集的产生效率和产生更为合理的关联规则。本文主要工作包括以下几个方面。
1、本文首先概述了数据挖掘理论和发展,以及主要的数据挖掘技术;然后研究了关联规则挖掘的步骤。对经典的Apriori算法做了全面的分析并指出算法的不足。
2、针对Apriori算法的不足,提出了一种基于事务标号集的Apriori改进算法——BTA(Based on TIDsets Apriori)算法。BTA算法的特点在于:在首次扫描数据库生成候选1-项集的同时,记住包含每一个项集的事务标识符TID集合。这样,只要统计候选项集所对应的TID集合的元素个数,就可以得到该候选项集的支持度计数,从而找到频繁项集。生成下一级候选项集时,只需将用于相连接的两个频繁项集的TID集合相交,就得到了该候选项集的TID集合。依次类推,直到找到所有的频繁项集。与Apriori算法不同的是,BTA算法只在产生候选1-项集时需要遍历一次数据库,其他候选项集的支持度计算只需统计相应TID集合的元素个数即可,而不必象Apriori算法那样反复地遍历数据库,从而大大节省了运行时间。相同条件下的实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率。
3、Apriori算法认为每个数据对规则的重要性相同。但在实际应用中,用户会比较倾向于自己最感兴趣或认为最重要的那部分项目,因此有必要加强这些项目对规则的影响。为此,论文提出了一种基于兴趣集和权值的挖掘算法——IWA(Interestset_weight Apriori)。首先,用户提出他们感兴趣的项目,然后在数据库中找出与该项目相关联的项目组成兴趣项扩展集,后面的挖掘工作将针对该项目集进行。这样,利用用户的约束有效地缩小了挖掘范围。其次,通过给每个项目赋予不同的权值来标识数据库中项目不同的重要性,使算法更切合现实,从而发现用户需要的关联规则。