基于集合枚举树的关联规则挖掘算法

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:ctrl111shift
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是当今处理“数据爆炸、知识贫乏”的一种行之有效的方式,而关联规则又是数据挖掘的一个重要的研究方向,它描述了两个或多个事物之间的相互依存关系,实际上是描述两个或多个变量之间的某种潜在关系的特征规则。其挖掘的时空效率成为了人们广泛关注的问题,研究者们在如何降低算法的复杂性、提高挖掘效率方面做出了大量的研究。而频繁项集的挖掘又是关联规则挖掘中的重中之重,所以大量的研究都围绕这一步骤进行展开。  本文首先对数据挖掘及关联规则挖掘进行了综述,概述了数据挖掘的发展过程及广泛的应用领域,总结了数据挖掘的步骤、任务及方法,并列出了关联规则挖掘的国内外研究现状及研究热点,同时描述了关联规则的基本理论及频繁项集挖掘的三种主要分类方法。  然后基于集合枚举树的概念框架,提出了以下两个算法。一方面,在经典关联规则算法的基础上,提出了一种基于CBD树的频繁项集挖掘算法,克服了一些经典算法的不足,利用垂直位向量及其数量积并且采用宽度优先与深度优先相结合的策略,通过有效的剪枝方式获得频繁项集,提高了算法的挖掘效率。另一方面,在传统数据集挖掘最大频繁项集的基础上,提出一种适用于不确定数据的最大频繁项集挖掘算法,此算法克服了先前在不确定数据中挖掘完全频繁项集效率较低的问题,使用概率矩阵及深度优先搜索方式挖掘不确定数据中的最大频繁项集,并且利用四种剪枝策略,提高了算法的效率。  最后,通过实验分别验证了两种算法的有效性,证明本文提出的算法具有一定的实用价值。
其他文献
在过去的20年里,互联网的迅速发展很大地影响着每个企业的发展以及人们的日常生活。所以,云计算的出现是互联网发展的必然结果。云存储是随着云计算的产生而产生的。云存储将分
随着网络信息化水平的日益提高,企业及组织的各项业务对网络的依赖日趋加深。安全威胁的无孔不入迫使众多的企业、组织机构部署了各种安全产品。传统的安全管理平台(SOC)提供了
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现出来。人们面对众多的信息,常常感到无所适从
随着智能算法的快速发展,其在推荐系统中扮演的角色也越来越重要,智能推荐算法已经成为一个非常活跃的前沿性研究课题。和传统的推荐算法相比较,智能推荐算法具有个性化、精
随着互联网的高速发展,流媒体得到了广泛的应用,也占据了互联网世界大部分的带宽。由于流媒体应用需要有足够的带宽和较高的实时性,传统的客户端服务器模型已经不适合流媒体
数据挖掘是对大数据集的探索过程,并揭示出其中的隐含规律,它融合了众多的技术,是计算机科学的一个重要分支。其中分类分析是数据挖掘中重要的分析技术之一,分类分析是根据已
航空数据总线是现代航空电子系统的关键技术,用于机载设备之间传输数据、共享数据等,ARINC429总线就是目前最为流行的航空数据总线之一,广泛应用在民航客机中。因此,建立一套完整
风力发电作为无污染新型能源受到世界各国的重视,但风力发电机体积庞大、难维修成为风力发电发展面临的一大问题。其中,轴承又是风电机中故障多发的部件,对轴承进行在线检测及故障诊断就显得尤为重要。风力发电机组振动在线检测系统能够远程检测风力发电机的运行状态,并诊断出故障的位置、类型和严重程度,以便及时地对故障进行抢修,延长风力发电机的寿命,减小风力发电厂的损失,因此研究风力发电机组振动在线检测技术有着重大
深度学习作为人工智能的一个分支被应用在多个领域,用深度学习作为模型应用在个性化推荐领域逐渐受到关注。受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)作为深度学习
在信息安全领域,Rootkit技术扮演着相当重要的角色。在常见的木马病毒等手段对目标机器的攻击中,常常采用Rootkit技术隐藏自身的文件、进程以及网络链接等信息来到达长期潜伏