论文部分内容阅读
数据挖掘(Data Mining)是数据库最活跃的领域之一。由于其广泛的应用背景和现实的意义,使得数据挖掘的技术和应用获得了突飞猛进的进展,日益引起国内外学术界和产业界的广泛关注。 关联规则(Association Rules)的挖掘是数据挖掘领域中一个重要的研究方向。关联规则可划分为多种类型,其中多维关联规则的挖掘目前倍受重视。多维关联规则(Multi-dimensional Association Rules)不仅考虑项集之间的关联,而且将事件发生的环境信息(如时间、位置等)考虑进规则的挖掘,从而为传统规则挖掘赋予新的含义,提供更为准确的参考信息,同时也提出新的挑战。 本文主要对多维关联规则的挖掘展开研究,主要包含两个内容:1)提出发现多维关联规则中频繁项集的基本算法MB。该算法采用项扩展的方法, 维保持不变,除项最后一个元素不同外,其余都要求相同,这样生成高阶候选 项集。为提高效率,采用了索引树的数据结构。在高阶候选项集生成之后,为 其建立该数据结构,其中,维为树枝,项构成叶子。在扫描数据库时,每读取 一个事务,便查找该树,如匹配上则为相应的项记数加1。2)向量挖掘算法:VM。该算法的求解过程描述如下:生成频繁2-项集时,采用 了hash技术来减少候选2-项集的生成。在挖掘频繁项目集的后期阶段,候选 K-项目集的集合己经很小,根据这个性质,我们对频繁2-项集引用了向量表示 的形式,通过其交运算生成所有的候选项目集,然后经过一次扫描数据库,便 可以得到所有的频繁项目集。节约了I/O时间。