论文部分内容阅读
FP-growth是一个经典的频集算法。FP-树的建立是这个算法中非常关键的一步。因此,其建树算法的效率对整个挖掘算法至关重要。本文从Fp-树的建树过程入手,分析其不足,并考虑相应的改进方法。首先是针对FP-树的建立过程中,每新增一个节点项都需要沿着link_list查找最后一个节点,过程比较繁琐,因此考虑在头表节点的数据结构中加入一个tail指针,直接指向最后一个节点,节省了查找时间;其次是针对原算法的查找过程中,需要将新增项与原节点一个一个比较,影响了算法的效率,故考虑建立一个hash表,通过一个hash函数,直接将新增项定位,省去了比较的时间。最后是考虑将两个改进方法综合起来,结合两者的优点,进一步优化算法。文中最后通过实验来分析比较改进前后的算法性能,并提出还有待改进的新的研究方向。