论文部分内容阅读
近年来,数据库中的知识发现(Knowledge Discovery in Databases,KDD)已成为涉及人工智能和数据库等学科的一门非常活跃的研究领域。而关联规则是KDD要发现的一类重要的模式,它的挖掘问题是KDD的一个重要研究方向,本文着重对关联规则的扩展模型和挖掘算法进行了研究。 传统关联规则挖掘假定数据库中每个项目具有相同的重要性,然而在很多实际应用中,事实并非如此:用户可能对某些特定的项目兴趣更大,而且同一项目在不同时段的重要性也可能是不同的。考虑到这一点,目前文献中有两类关联规则的扩展模型:加权关联规则和多支持度关联规则。加权关联规则的思想是为每个项目追加一个表示其重要性的权值,传统的关于支持的定义被扩展为加权支持,这样就可以发现较多用户感兴趣的关于重要项目的关联。多支持度关联规则放弃了传统模型中的单一最小支持阈值,取而代之的是为每个项目设置一个最小支持阈值,对比较重要的项目可以把阈值设的小一些,这样同样可以达到加权关联规则模型的效果。 本文的主要贡献提出并研究了混合关联规则模型。 负关联规则作为传统关联规则的对立面,也包含了有用的信息。然而,文献中对负关联规则的研究较少且并没有完全形式化。为此,通过在项目集中引入负项目,本文提出了一种关联规则的扩展模型:混合关联规则。它是传统关联规则和负规则的超集。 本文提出并详细讨论了混合关联规则的三种挖掘算法:直接的算法,基于hash树的算法,和基于树的算法。第一种算法是从混合规则的定义出发采用直接的方法生成大项集,算法的复杂度较大,效率不高;第二种算法是对Apriori算法稍加修改得到的,也不够令人满意;为进一步提高执行效率,我们设计了基于一种树结构的算法。此外,我们还给出了一个冗余负关联规则的剪枝算法。所有算法均用C实现。为验证算法的有效性,我们根据理论分布,使用伪随机函数生成了若干数据集,进行了关联规则挖掘实验,并对实验结果进行了分析。 然而,混合关联规则模型也有一些难题,如传统的“规则过多”问题这里表现得尤为突出。为此,本文探讨了在混合关联规则模型中引入权值或多支持度的将来研究方向。