论文部分内容阅读
闭频繁项集包含了关于频繁项集的完整信息,可显著减少频繁项集挖掘所产生的模式数量,在一定程度上降低了内存开销、提高了时间效率。数据流的特性决定了它需要更高效的挖掘算法,为此使用分治策略,提出一种并行化闭频繁项集挖掘算法PCFI。该算法采用垂直数据格式存储项集的事务,通过对事务集的集合运算,可快速得到项集的支持度计数,合并具有相同事务集的频繁项,得到初始生成子,降低了搜索空间的规模。采用分治策略对初始生成子进行并行处理,得到约简前序集和约简后序集,在挖掘过程中不断地对每一生成子的搜索空间进行减枝,得到更