ToP-K频繁项集挖掘算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:q398197371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是研究从大量数据中发现有用知识的理论与方法,它是目前国际上数据库和信息决策领域的最前沿研究方向之一。关联规则是数据挖掘中一个较早的、有意义的研究课题之一。在关联规则的挖掘过程中,频繁项集挖掘是整个挖掘过程的基础,也是整个挖掘的核心,如何高效和有效的挖掘频繁项集一直以来就是研究人员关注的热点。但是,在实际应用中,由于大数据的存在和频繁项集数量巨大,从而阻碍了频繁项集的广泛应用。因此,如何对频繁项集算法进行优化和对频繁项集进行压缩成为了当前研究的一个重要方向。  本文首先介绍了数据挖掘的相关背景和当前国内外研究现状,随后简单的介绍了关联规则和频繁项集的基本挖掘技术,同时,简要分析了频繁项集的压缩技术和常用频繁项集压缩方法的比较。最后,本文提出了基于贪心策略的Top-K频繁项集挖掘算法NFIMG算法和由NFIMG算法衍生结合闭合节点性质剪枝的Top-K闭频繁项集挖掘算法NCFIMG。  (1)本文提出的NFIMG算法。该算法基于贪心策略生成的频繁链表,抛弃了人工对于最小支持度的干预,只需一次遍历数据库操作,使用生成即所得的挖掘方式进行Top-K频繁项集的挖掘。并且,文中通过理论证明了该算法的可行性和时间及空间的优越性。最后,通过采用UCI数据集对比实验证明了该算法性能的优越。  (2)本文提出的挖掘Top-K频繁闭项集的NCFIMG算法。该算法本质上基于本文提出的NFIMG算法,同时,结合闭项集的性质进行挖掘,过程中依据的“闭合节点”引理进行剪枝操作。之后,本文在理论证明了该算法的正确性,通过对比试验证明了该算法在时间和空间上优越性。同时,该算法思路清晰,易于实现,并且可以和NFIMG算法在挖掘过程中进行挖掘类型转换。  本文对所提出的算法进行了广泛的对比试验。分别在UCI机器学习库中的多个数据集以及IBM数据生成器上生成的数据集上进行了对比试验。实验结果表明,与Apriori,NApriori算法相比,本文所提出的NFIMG算法在空间复杂性和时间复杂性都要略逊一筹。同时,改进算法NCFIMG在与TFP算法等的比较中,在挖掘效率和存储空间上的优势也非常明显。实验结果表明本文所提出的NCFIMG算法在进行长项集的挖掘时更有效率。这些研究成果为频繁项集在实际问题中的应用提供了一种有效的解决问题的途径。
其他文献
目前,图像和视频正成为多媒体的主要表现形式,如何有效地从大规模图像库中快速检索出用户真正需要的图像,已成为实际生活中急需解决的问题。传统的CBIR技术多通过分析图像视
无论是因为对人工智能理论研究的贡献,还是因为实际的应用前景,作为人工智能的一个重要分支,智能规划的研究价值不可小觑,近年来研究成果颇多,成绩斐然。为了让智能规划能处
粗糙集理论是一种新兴的处理不精确、不确定与不完全数据的数学工具。决策支持系统强大的辅助决策以及粗糙集理论强大的信息处理功能已日益显露出来并为人们所关注。本文从农
随着Internet的发展,电子商务已成为当前一种重要的商务方式。在商务活动中,买卖双方在交易时必然会因商品属性的要求不同而产生冲突和争议,这时一般采用谈判方式来达成共识
随着Web服务技术的成熟与发展,组合已有服务提供新的增值服务成为一种具有重要价值的应用构造模式,服务组合技术成为了集成技术发展的新方向。QoS驱动的组合服务动态选取作为
电子制造业竞争日益激烈,产品投放市场时间越来越短,生产周期也日益缩短,何提高SMT系统生产效率,即SMT系统优化成为摆在我们面前的问题。 介绍了SMT系统组成,结构,工艺流程,发展
随着互联网技术的发展,网络安全问题已经成为目前计算机网络发展所迫切需要解决的问题。传统防火墙在保证网络安全中发挥了显著的作用,但在不断扩大的网络规模和日益多样化的网
随着无线通信的日益发展,用户对网络业务的种类和服务质量要求越来越高。为了保证网络传输的可靠性,差错控制技术应运而生。其中,自动重复请求ARQ(Automatic RepeatreQuest)
随着后基因组时代的到来,生物信息学的研究重心已经从序列的测序转移到对已测序的全基因组进行功能注释。随着大规模测序工具的高速发展,大通量的全基因组得到测序。仅仅依靠
本文实现了基于J2ME的手机即时通信系统,系统客户端和服务器通信使用的是Http协议,对Http协议的特性作了简要描述,结合本系统的使用,分析了Http协议的内部操作流程。设计了本系统