论文部分内容阅读
数据挖掘是人工智能和数据库技术等领域的研究热点,正在现实应用中发挥着强大的作用。关联规则挖掘是数据挖掘中一个最活跃、最重要的研究课题,主要目的是从给定的数据集中发现项目之间有趣的关联和相关关系。传统关联规则挖掘算法认为数据集中每个项目和交易记录具有相同的重要性,而实际上,用户往往对每个项目和记录的重要性加以区分,以便发现更感兴趣和更有价值的规则。加权关联规则挖掘解决了上述问题,并正受到越来越多的国内外研究者的重视。本文概述了数据挖掘和关联规则的相关知识,并系统地介绍了垂直、水平、混合加权关联规则挖掘,讨论和分析了常见加权关联规则挖掘算法模型。在对加权关联规则进行了深入研究的同时,提出了相关改进算法和应用。首先,说明了New_Aprior的缺陷,详细地分析了其改进算法—MWFI(Mining Weighted Frequent Itemsets)算法的不足,根据项目的不同重要性,提出了一种改进的加权关联规则挖掘算法。改进算法通过按属性的权值对事务进行分类,使挖掘每个类别内频繁项集的过程满足Apriori性质,可以利用Apriori算法或其它改进算法进行挖掘,提高了挖掘加权关联规则的效率,并且很容易扩展到混合加权关联规则挖掘中。另外,数据库中的项目分布往往是不均匀的,需要为项目设置不同的最小支持度。本文在考虑了记录的不同重要性的同时允许为不同项目设置不同的支持度,给出了一种多最小支持度加权关联规则挖掘算法。该算法挖掘频繁项集的过程克服了多最小支持度情况下不满足Apriori性质的缺陷,且不需多次重复扫描数据库,剔除了冗余项目并对相同项集累加计数,实验证明了算法的效率。最后,将加权关联规则应用到时态数据库挖掘中,提出了一种加权时态关联规则的挖掘方法。算法给出了有效的剪枝方法,克服了现有以项目生命周期为时间特征的关联规则算法中直接用频繁(k-1)-项集连接生成候选k-项集的不合理之处,并通过实例分析和实验对比验证了算法的有效性。挖掘出的规则既突出了项目的权重,又体现了现实数据中的时态语义,更具有实际应用价值。