基于iceberg概念格的最大频繁项集挖掘研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:ajie830510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘过程中频繁项集(Frequent Itemset,FI)的求解是关联规则挖掘的基础和前提,也是关联规则挖掘中最耗时的一步。降低候选项集的数量是减小开销的最好手段。由于最大频繁项集(Maximal Frequent Itemset, MFI)中已经隐含了所有频繁项集,所以可把发现频繁项集的问题转化为发现最大频繁项集的问题。挖掘最大频繁项集可有效地缩小项集的规模,便于用户迅速发现稠密数据集中的知识。然而,随着数据收集和数据存储技术的快速进步,使得各组织机构积累了海量的数据,造成现有的最大频繁项集挖掘算法挖掘效率低下,主要表现为:多次扫描数据库需要大量I/O开销;候选集规模过大导致无法计算和存储;增量挖掘困难;大量冗余的和用户不感兴趣的规则等等。为了解决上述问题,论文将具有完备特性的iceberg概念格模型引入到最大频繁项集挖掘的研究中。iceberg概念格是在用户指定的支持度阈值的条件下概念格中所有频繁概念构成的半序格结构,每个频繁概念的内涵都是一个频繁闭项集,描述了数据集中对象和属性之间的关系。利用频繁闭项集与最大频繁项集之间的隶属关系和频繁概念之间良好的泛化和特化关系,提出了基于iceberg概念格的最大频繁项集和属性增长的最大频繁项集增量挖掘算法。论文还对基于iceberg概念格的正相关的无冗余关联规则进行研究,解决了从最大频繁项集中挖掘的关联规则会导致支持度信息的损失和存在大量冗余的用户不感兴趣的规则的问题。论文的主要工作如下:(1)提出基于iceberg概念格的最大频繁项集挖掘算法ICMFIA(Iceberg Concept Lattice Maxmal Frequent Itemset Alogithm)。该算法通过一次扫描数据集构建iceberg概念格,利用iceberg概念格中频繁概念之间良好的覆盖关系,能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。理论证明和实验测试结果表明,所提算法与现有算法相比,具有扫描数据集次数少和挖掘效率高的优点。(2)提出基于iceberg概念格的最大频繁项集增量挖掘算法MAI-AI(Maximal Frequent Itemset-Attribute Incremental)。该算法主要针对数据集的属性增加后最大频繁项集挖掘问题。在原始iceberg概念格的基础上构建新的iceberg概念格并计算新增的最大频繁概念和需要更新的最大频繁概念。然后只需挖掘新增的最大频繁项集和最大频繁项集集合中需要更新的最大频繁项集。避免了数据集中属性增加后需要重新挖掘所有的最大频繁项集问题。实验结果表明,算法具有重复工作少和重用率高的优点。(3)提出了在iceberg概念格中挖掘正相关的无冗余关联规则的方法,以解决最大频繁项集挖掘出的关联规则支持度信息的损失和存在大量用户不感兴趣的规则等问题。通过提出无冗余关联规则来缩小挖掘规则的规模,其它有效的关联规则的支持度和置信度都能通过无冗余关联规则计算出来。由于使用支持度一置信度框架计算的强关联规则不一定是有趣的,论文引入提升度来挖掘正相关无冗余关联规则,挖掘用户真正感兴趣的规则。
其他文献
本文讨论了以轻量级目录访问协议(LDAP)为基础实现企业中IT部门服务器设备用户集中管理的解决方案,该方案已成功在某国有大型银行部署,但该方案并不针仅针对于某一特定的行业
学位
近年来,子午线轮胎凭着其诸多优势逐渐被广泛使用,子午胎内质量检测己成为生产在线的必检项目。一方面,现有的各种无损检测方法都或多或少地存在着某些缺陷。另一方面,随着国
物体识别是计算机视觉研究领域中最具挑战性的研究课题之一。随着现代图像获取技术的提高,基于图像的物体识别具有良好的应用前景。然而,基于图像进行物体识别也面临很多困难
森林是一个异质等级系统,在个体、种群和群落等不同的结构层次上植物的生长过程存在着差异性及关联性。目前对森林生态景观的研究主要从数理统计学、植物生理学、传统的生物学
在常规的实时调度理论中,一般用实时任务的最坏计算时间进行可调度性判定。但在实际的工程应用中,实时任务的计算时间有时会发生变化。任务的计算时间变化时,会影响可调度性判定
本文提出了一种基于国产龙芯与自主物联协议的物联网应用系统解决方案。该系统的核心技术自主可控,对国家长远发展战略目标有着深远的意义。本文较为详细的介绍了以下三个模
入侵检测,顾名思义,是对入侵行为的发觉,通过从计算机网络系统中的若干关键点收集信息并对其进行分析,从中发现违反安全策略的行为和遭到攻击的迹象,并做出自动响应,它不仅检
【摘 要】本文是利用本体可实现领域知识的共享和复用,以及可推理的特性,将其应用到课程资源管理领域中。重点研究了课程领域本体的构建以及利用已构建的本体实现课程资源的语义推理和查询。  【关键词】本体 资源管理 构建  一、引言  如今网络上有大量教育资源对人们共享和开放,如何有效的组织、管理和维护大量信息并支持信息的共享、交换和复用已成为目前研究的热点。  本文按照教学规律将课程知识点中具有代表性的
实时系统与人们的生活联系越来越密切,它被广泛应用于工业控制,网络传输,多媒体处理,以及军事等领域。对实时系统的研究最初围绕单处理器平台进行;随着多处理器技术的诞生,以
人脸识别是模式识别领域中一个相当困难又具有重要理论价值和实际应用价值的研究课题,在身份鉴别、人机交互和视觉监控等领域有着巨大的应用前景。本文主要研究了人脸识别系