基于高级SQL查询的分布式多维关联规则挖掘算法的研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:himayu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多维关联规则挖掘是数据挖掘的重要研究内容。与此同时,随着Internet的迅猛发展,分布式数据库得到广泛应用。因此,迫切需要一种方法解决分布式环境下多维关联规则挖掘的问题。本文提出了一种基于高级SQL查询的MDMA (Multi-dimensional Distributed Mining Association rules)算法。本算法基于星型网络拓扑结构,由中心站点和分站点组成,中心站点负责控制挖掘过程和显示挖掘结果,分站点负责挖掘局部频繁项集和对全局频繁模式进行局部支持度计数。本算法利用了SQL新标准中的CUBE运算符,能够通过一次扫描局部数据库产生全部的局部频繁项集,使得在挖掘过程中不必通过多次迭代产生频繁项集。本算法采用两次知识融合技术来实现分布式频繁模式挖掘。首先,从各个分站点挖掘出的局部频繁项集中提取出全局候选频繁模式,然后,中心站点根据筛选出的全局候选频繁项集构建全局扩展频繁模式树。此全局扩展频繁模式树会从中心站点发往各个分站点。各个分站点接收到全局扩展频繁模式树之后,利用本地局部数据库中的数据计算各个全局候选频繁项集的局部支持度计数并把计算结果发往中心站点。中心站点会对各个分站点发送过来的计数结果进行汇总统计并根据统计结果找出全局频繁项集。因此,不管分站点数量为多少,各个分站点局部数据库规模如何,此算法始终只需两次扫描数据库和三次网络通信就可产生全部的全局频繁项集。为高效地实现多维全局频繁模式的知识融合,本算法提出了一种全新的数据结构,即全局扩展频繁模式树。该树中引入了复合结点,复合结点由若干元结点组成。同一复合结点内的元结点是逻辑或的关系。这种数据结构简化了多维全局频繁模式验证过程中遍历树搜索匹配结点的过程,并提高了挖掘结果的可视化程度。MDMA算法还充分考虑了用户的偏好,用户可以自由决定对哪几个属性进行挖掘。本算法具有网络通信量小,耗时少,简单易行,扩展性好和考虑用户偏好的特点。为了便于用户利用MDMA算法进行分布式多维关联规则数据挖掘,本文开发了基于WEB的分布式关联规则挖掘系统,该系统不仅能够以可视化的方式显示挖掘结果,还能够根据用户给定的前后件条件,交互式的产生相应的关联规则。
其他文献
粒子滤波方法是近年提出的一种适用于目标跟踪的有效算法,但存在粒子的退化现象,导致许多状态更新的估计对目标跟踪轨迹不起任何作用,在浪费大量计算资源的同时降低了粒子滤
可视化是表达数据的直观且有效的手段,受到许多领域的重视,如信息学领域、生物学领域、合成生物学领域等。这些领域的迅猛发展为可视化带来机遇与挑战。例如合成生物学是用标
随着网络技术的不断发展,P2P(peer-to-peer,对等网络)应用已经成为最重要的网络应用之一。它为用户提供了丰富的资源和较好的服务质量。然而在带来诸多好处的同时,也同时带来
揭示基因组水平上的基因表达调控规律是生物信息学和分子生物学所面临的挑战性问题之一。转录调控是基因表达调控的关键步骤,转录因子结合在基因启动子序列中的转录因子结合
瓦斯浓度的准确检测对人们的生活和工业生产具有重要意义。相比传统的检测方法,红外气体检测技术因其具有灵敏高、测量范围宽、响应迅速等优点,成为气体检测领域中的研究热点
传统的视频编码标准,如MPEG或H.26x系列,均是在编码端利用视频序列帧间的相关性来进行帧间预测编码。为了能够较为准确地预测当前帧,现行标准均使用了运动估计算法,该算法的
随着嵌入式系统逐渐被应用到航天、军事、生命监控等领域,人们对嵌入式系统的可信性要求越来越高,高可信嵌入式计算机系统设计与实现技术已成为人们重要的研究课题。嵌入式系
随着人类生活水平的提高,汽车已深入到人类的生活中,人们对汽车的要求也越来越高,从安全性、舒适性、操作简单性、功能完备性到整车售后的服务质量等都有着不同的个性化要求
在中国电信运营商重组以后,国内电信业的市场环境已渐趋合理,它们之间的竞争更加激烈。客户是电信运营商生存和发展的根基[1],对客户的保有和争夺也就成为竞争的焦点。作为全
片上网络(Network on Chip, NoC)的提出以大规模集成电路的发展、路由算法的研究和互连网技术的不断改进为基础,同时这些软、硬件基础技术也推进了片上网络的不断发展,有着非