基于Inclusion-Exclusion原理的频繁项集压缩方法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhiyin1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集的挖掘是多种数据挖掘任务中至关重要的一步,然而由于潜在的频繁项集的数据与项的个数呈指数倍关系,导致了频繁项集的数量都往往大得惊人,使用户难以处理和理解,不仅仅影响挖掘的效率,也极大的制约着挖掘的效果,影响了它的应用。 事实上,在由全部频繁项集组成的的集合中,是存在信息冗余的。基于集合论上的Inclusion-Exclusion原理,这些冗余信息可以被展现出来,并且也可以基于此原理将这些冗余信息推算出来。所以这部分冗余信息就无需存储,从而压缩了集合的大小,这样的每种具体压缩方法可称为一种压缩表示。通过挖掘和处理某种形式的压缩表示,能非常有效的减少集合的大小,往往在数量级上比原始集合要小,同时却很好的保留了原来的信息。 本文的主要工作: 提出了最短强规则的概念,并将频繁最短强规则结合频繁自由项集,构成一种新的压缩表示,更精确的表达原频繁项集的集合。 提出了近似可推导项集的概念,并提出使用全部频繁非近似可推导项集做为原始频繁项集的集合的一种有效的近似的压缩表示。 讨论和比较了各种已有的各种频繁项集压缩表示,并揭示了它们与Inclusion-Exclusion数学原理的关系;提出了基于近似及规则这两种主要思想来扩展已知的压缩表示的方法;介绍了七近似自由的框架,并分析了该框架与其它基于各压缩表示的关系;最后提出了基于k近似自由的、结合强规则的两种高效的框架性压缩表示。
其他文献
终端安全是信息安全中一个不可忽视的重要组成部分,如何为终端计算机构建可信的计算机环境,一直是这个领域的热点问题。在基于可信平台模块的可信计算机环境的实现这方面,虽然国
嵌入式系统是计算机发展的一个分支,广泛应用于移动通讯、电子消费产品、工业控制、军事科技和医疗设施等社会、生活的各个领域。随着嵌入式系统的快速发展和应用,对嵌入式系统
最近社交网站在互联网中越来越流行。有很多的工作集中在分析在线社交网络。这些工作带来了巨大的商业价值,也对其他许多的工作提供了重要的依据。由于图像社交网络特殊的架构
有效的网络管理是网络正常运转的保障。目前的网络规模不断扩大,结构日益复杂,网络管理中存在的问题和管理难度随之增加。网络管理普遍存在着效率不高、对大规模的网络管理困
数字校园就是利用先进的信息化手段和工具,在传统校园的基础上,实现从资源(如图书、讲义、课件等)到活动(包括教、学、管理、服务等)的数字化,以网络为基础构建的虚拟数字校
视觉目标跟踪在实际应用中得到了广泛的研究,如智能视频监控、人机交互、智能交通、虚拟现实等。虽然大量的跟踪算法已被提出,但鲁棒和有效的视觉目标跟踪系统仍然是一个非常
随着信息与通信技术的飞速发展,信息安全、通信保密尤其是网络安全日益受到了人们的重视。本文主要是对IDEA 算法的研究及其变种的实现。本研究具有一定的理论意义和实用价值
软件测试是迄今为止人们所能找到的保证软件质量的最好方法,它能够有效地发现软件中的许多缺陷。软件测试保证了软件开发过程的高效性,保证了开发出来的软件产品的高质量和可用
企业竞争的成败取决于企业成本的高低。企业资源计划(Enterprise ResourcePlanning,简称ERP)的广泛认同和实施,给企业带来了丰厚的效益。然而面对日趋激烈的市场竞争,企业需要更深层次的信息来辅助决策;同时,随着ERP的实施,企业累积的大量数据由于ERP自身的缺陷缺乏深层次的利用。因此,本文提出在ERP的成本管理中耦合智能决策技术,为企业提供有效的决策手段。本文设计了ERP成本
近年来,语音识别技术取得了巨大的进展。人们迫切的希望把它推向广泛的实用领域,而不满足于只是理论研究。本文以教研室的《基于鱼类生物模型的计算机动画》项目为背景,分析