论文部分内容阅读
多维关联规则挖掘是数据挖掘的重要研究内容。与此同时,随着Internet的迅猛发展,分布式数据库得到广泛应用。因此,迫切需要一种方法解决分布式环境下多维关联规则挖掘的问题。本文提出了一种基于高级SQL查询的MDMA (Multi-dimensional Distributed Mining Association rules)算法。本算法基于星型网络拓扑结构,由中心站点和分站点组成,中心站点负责控制挖掘过程和显示挖掘结果,分站点负责挖掘局部频繁项集和对全局频繁模式进行局部支持度计数。本算法利用了SQL新标准中的CUBE运算符,能够通过一次扫描局部数据库产生全部的局部频繁项集,使得在挖掘过程中不必通过多次迭代产生频繁项集。本算法采用两次知识融合技术来实现分布式频繁模式挖掘。首先,从各个分站点挖掘出的局部频繁项集中提取出全局候选频繁模式,然后,中心站点根据筛选出的全局候选频繁项集构建全局扩展频繁模式树。此全局扩展频繁模式树会从中心站点发往各个分站点。各个分站点接收到全局扩展频繁模式树之后,利用本地局部数据库中的数据计算各个全局候选频繁项集的局部支持度计数并把计算结果发往中心站点。中心站点会对各个分站点发送过来的计数结果进行汇总统计并根据统计结果找出全局频繁项集。因此,不管分站点数量为多少,各个分站点局部数据库规模如何,此算法始终只需两次扫描数据库和三次网络通信就可产生全部的全局频繁项集。为高效地实现多维全局频繁模式的知识融合,本算法提出了一种全新的数据结构,即全局扩展频繁模式树。该树中引入了复合结点,复合结点由若干元结点组成。同一复合结点内的元结点是逻辑或的关系。这种数据结构简化了多维全局频繁模式验证过程中遍历树搜索匹配结点的过程,并提高了挖掘结果的可视化程度。MDMA算法还充分考虑了用户的偏好,用户可以自由决定对哪几个属性进行挖掘。本算法具有网络通信量小,耗时少,简单易行,扩展性好和考虑用户偏好的特点。为了便于用户利用MDMA算法进行分布式多维关联规则数据挖掘,本文开发了基于WEB的分布式关联规则挖掘系统,该系统不仅能够以可视化的方式显示挖掘结果,还能够根据用户给定的前后件条件,交互式的产生相应的关联规则。