论文部分内容阅读
关联规则问题是数据挖掘领域的一个研究热点。该问题的解决分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着整体性能,因此研究频繁项集挖掘问题具有十分重要的意义。
在频繁项集挖掘算法中,对数据库的表示可以采取水平表示、垂直表示等多种方法,采用垂直表示的算法性能通常优于采用水平表示的算法。
数据库垂直表示又可以分为两种:用交集表示的tidset方法和用差集表示的diffset方法。当数据库稠密时,diffset方法优于tidset方法。当数据库很稀疏时,tidset方法在挖掘的开始阶段优于diffset方法,但随着挖掘深度的增长,diffset方法逐渐地优于tidset方法。于是Zaki提出先用tidset方法再改用diffset方法的上下分界算法,但仍存在一些不足。
本论文的主要工作有:
1.提出了一种新的算法LR。该算法第一次在tidset和diffset基础上明确提出将频繁1项集集合划分成稠密部分和稀疏部分,并给出了分界值的确定公式。它改变了上下分界算法将所有的频繁1项集采取统一对待的方法,在挖掘时对这两部分采取不同的策略:对稠密项部分采用diffset方法,对稀疏项部分采用Zaki提出的方法,即先采用tidset方法,当挖掘到一定深度时,再改用diffset方法,从而达到很好的效果。
2.在回顾1993年来比较重要的频繁项集挖掘算法的基础上,第一次给出算法的历史图,从而有助于从宏观的、动态的角度对频繁项集挖掘算法有一个更全面、更清晰的认识。