挖掘频繁闭项集并构建其格的快速算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:Disama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,信息对于一个国家或者企业越来越重要,人们被淹没信息之中,却得不到更多有用的知识。因此数据挖掘技术应运而生,并越来越显示出强大的生命力。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支持度阈值和置信度阈值的强关联规则。近年来,关联规则挖掘研究己经成为数据挖掘中的一个热点,并被广泛应用于金融、市场营销、事务分析等应用领域。关联规则挖掘算法是关联规则挖掘研究的主要内容,传统的关联规则挖掘算法以挖掘频繁项集为主要任务,但挖掘所有频繁项集需要大量的工作量;较前的研究表明:传统的关联规则挖掘产生太多冗余规则,而挖掘频繁闭项集的数量远小于所有频繁项集的数量,而且频繁闭项集不会产生信息丢失。因此用挖掘频繁闭项集来代替挖掘所有频繁项集是一个不错的选择。但为了加快产生关联规则的速度,仅仅有频繁闭项集是不够的,需要将项集之间的关系用一种有效的数据结构保存起来,格就是这样一种结构。因此用挖掘频繁闭项集及其格结构算法来快速高效的产生关联规则是一个重要的研究方向。本文主要工作包括:1)总结了目前一些挖掘频繁闭项集算法的不足,并针对最新的CHARM算法和频繁闭项集及其格结构算法CHARM_L进行了深入分析。2)针对CHARM_L算法中消除冗余效率不高、建格效率较低等缺点,引入了preC的概念,并进而提出了一种改进算法:Q-CFIsL算法。该算法在CHARM_L基础上,继承了CHARM_L的优化策略,同时采用了一些新的方法克服了CHARM_L的不足;该算法基于垂直数据结构,采用了一种直接利用IT-Tree的线性消除冗余的有效方法来构建频繁闭项集格,从而实现了挖掘频繁闭项集与建格的统一,并通过实验表明:当最小支持度越小,Q-CFIsL算法的性能就越优越,优于当前最新的同类算法CHARM_L。3)结合Q-CFIsL算法,利用挖掘出的频繁闭项集格来挖掘最小关联规则,根据最小关联规则推导出所有满足条件的关联规则,并通过实验证明了最小关联规则的有效性。
其他文献
随着网络技术的发展,越来越多的数据正以数据流的形式存在于各种各样的网络系统中。数据流的特点是数据不是永久储存在传统数据库中的静态数据,而是瞬时处理的源源不断的连续数
随着高校信息门户系统受到人们越来越多的关注,门户资源统一访问控制正在成为当前访问控制研究领域的热点之一。由于传统的访问控制方法已难以满足日益复杂的门户应用需求,而
随着互联网的不断发展,各种网络信息正在爆炸式的增长,随之出现大量的微博、商品评论等信息,这些信息往往都带有一定的情感倾向性。因此,如何自动识别这些评论的情感倾向,在
随着科技的迅猛发展,现代企业对信息管理的要求越来越高。由于目前企业的各种信息系统构建于不同的时期且在应用方面缺乏统一规划,导致系统之间无法进行关联,资源难以共享,形成了
随着计算机和网络技术的广泛应用,工作流技术也有了巨大发展,并得到了初步运用。工作流系统已经成为组织企业业务流程,提高工作效率,增强企业竞争力的重要手段。传统的工作流
在语义网中,资源描述框架(Resource Description Framework, RDF)主要用于实现网络上信息系统的语义本体描述。由于不同的信息系统可能使用不同的语言数据描述方式,相同的语
互联网己经进入一个崭新的时代,日益成为我们日常生活的一部分,但同时,带来的安全问题也日益突出,成为一个不得不重视的问题。嵌入式平台作为一种安全、高效、低成本的平台,
目前乒乓球机器人系统普遍存在两个难题:首先,乒乓球高速运动时,机器人较难在短时间内做出反应;其次,机器人无法识别来球类型(如下旋、上旋、无旋等),不能判断来球是否旋转以及
随着网络技术的飞速发展,计算机网络的规模不断扩大,复杂性也越来越强。传统的简单网络管理协议(SNMP)由于其自身的一些缺点已经越来越不能满足网络管理的要求。近几年来,可
计算机的应用促进了控制理论的发展,计算机技术的发展推动了工业控制的微机化、智能化、网络化和先进控制理论的应用。同时,成功的应用也促进了控制理论的持续和深入的发展。因