论文部分内容阅读
数据挖掘是致力于数据分析和理解,揭示数据内部蕴涵知识的技术,成为未来信息技术应用的重要目标之一。关联规则是数据挖掘的一个重要研究分支,主要用于描述数据库中数据项之间的潜在联系,有着极其重要的应用价值。自Rakesh Agrawal等人1993年首次提出了关联规则挖掘这个研究课题以来,研究人员已经提出了多种挖掘关联规则的算法:Apriori算法、FP-growth算法,以及基于这两种算法的多种改进方法,但这些算法都是把数据库中各个项目按平等一致的方式加以处理的。而在实际应用中,各个项目在使用者心目中的重要程度往往不同,一个自然的想法就是为每个项目赋予不同的权值,以区分它们的重要程度。鉴于此,本文对加权关联规则挖掘算法进行了研究。另外,在关联规则的实际挖掘过程中,用户往往需要对最小支持度和最小置信度这两个阈值进行不断调整来寻找真正感兴趣的规则;而且数据库中的数据是不断进行添加、修改和删除的,这是一个动态的交互过程。因此,关联规则的更新问题也很值得研究。本文首先概述了数据挖掘的任务、方法、应用等现状,介绍了关联规则分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的关联规则和加权关联规则挖掘算法,分析了算法存在的问题。在此基础上,提出了新的加权关联规则模型,并给出了挖掘加权频繁项集的矩阵位串算法(Matrix Bit string Algorithm,简记为AMB)。该算法创新之处在于引入矩阵思想,通过一次扫描交易数据库将其转化为0-1矩阵,并在判断某个项集是否加权频繁项集时采用位串做逻辑“与”运算方法,而免去了对原始交易数据库的多次扫描判断。理论分析和实验均表明,AMB算法比已有加权关联规则挖掘算法WMAR的效率更高。在分析已有增量更新算法的基础上,给出了改进的增量式更新算法MFUP,并通过实验验证了本算法的效率。在本文的最后对全文内容进行总结,并展望了进一步的研究方向。