LR:一种新的频繁项集挖掘算法

来源 :中山大学 | 被引量 : 0次 | 上传用户:lpf881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则问题是数据挖掘领域的一个研究热点。该问题的解决分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着整体性能,因此研究频繁项集挖掘问题具有十分重要的意义。 在频繁项集挖掘算法中,对数据库的表示可以采取水平表示、垂直表示等多种方法,采用垂直表示的算法性能通常优于采用水平表示的算法。 数据库垂直表示又可以分为两种:用交集表示的tidset方法和用差集表示的diffset方法。当数据库稠密时,diffset方法优于tidset方法。当数据库很稀疏时,tidset方法在挖掘的开始阶段优于diffset方法,但随着挖掘深度的增长,diffset方法逐渐地优于tidset方法。于是Zaki提出先用tidset方法再改用diffset方法的上下分界算法,但仍存在一些不足。 本论文的主要工作有: 1.提出了一种新的算法LR。该算法第一次在tidset和diffset基础上明确提出将频繁1项集集合划分成稠密部分和稀疏部分,并给出了分界值的确定公式。它改变了上下分界算法将所有的频繁1项集采取统一对待的方法,在挖掘时对这两部分采取不同的策略:对稠密项部分采用diffset方法,对稀疏项部分采用Zaki提出的方法,即先采用tidset方法,当挖掘到一定深度时,再改用diffset方法,从而达到很好的效果。 2.在回顾1993年来比较重要的频繁项集挖掘算法的基础上,第一次给出算法的历史图,从而有助于从宏观的、动态的角度对频繁项集挖掘算法有一个更全面、更清晰的认识。
其他文献
维基化(Wikification)是将纯文本文档中的短语链接到相应的维基百科文章,以表现短语正确语义的过程。维基化可以被视为更一般的单词语义消歧问题,它在对单一单词消歧的同时,也进行
网络事务监控与分析系统的着眼点是信息流分析与数据留存。本文在论述网络事务监控的意义及原理的基础上,对网络监听技术、TCP/IP协议、HTTP协议、FTP协议等进行了深入地分析,通
数字签名在电子商务中的应用中占有重要地位。作为数字签名的一个分支——代理签名,由于其在电子银行,电子商务、移动代理等实际应用中的重要作用,一提出便受到广泛关注,成为
随着Internet技术快速的发展,Web的应用变得越来越广泛。同时Java技术因为具有跨平台的特性也取得了广阔的发展空间。自从1999年推出以来,SUN公司J2EE平台作为一种Web应用的
现阶段校园信息化建设面临多个问题:现存的信息系统之间交互性较差、数据重复、信息不同步、信息孤岛等。本文分析了其他高校“数字校园”建设方案及企业应用集成的案例,分析了
本论文的目的在于扩展传统的防火墙技术,使之能够防范来自内部的攻击。传统防火墙之所以存在这种缺陷是因为它是对外防护,而对内部网络的主机认为都是可信的,缺乏对内部局域网主
随着计算机网络技术和多媒体技术的飞速发展,多媒体信息给人们的生活创造了极大地便利,但同时也暴露出越来越多的安全隐患问题。信息隐藏技术作为信息安全技术研究领域中的一
学位
近年来,随着计算机技术与网络技术突飞猛进的发展,现代企业遇到了巨大的机遇与挑战。如何提高自身的竞争力?很多企业都认识到企业信息化是企业强大的必由之路,然而我国企业信
随着大数据时代的到来,如何高效地分析处理海量数据成为了计算机学科的一个新的挑战。MapReduce就是在此背景下出现并飞速发展的一种计算模型。在此之前,并非没有并行计算模型,