论文部分内容阅读
关联规则是数据挖掘中比较活跃的研究方向之一,它反映了大量数据中项目之间有趣的关联或联系,一个比较经典例子就是“90%的客户在购买面包和黄油的同时也购买了牛奶”,数据库中的每个项目以平等一致的方式来处理。而加权关联规则则考虑了各个项目的不同的关注度,从一定程度上提高了传统关联规则的兴趣度。序列模式是在关联模型中增加了时间属性,把数据之间的关联性与时间联系起来,寻找的事务之间在时间上的先后次序关系,预测将来可能出现的值的分布。
目前,对序列模式挖掘算法的研究很多,主要集中在如何提高算法的时间效率和减少空间上的开销。但在庞大的交易数据库里,这些算法很容易产生几百、几千个序列模式,如果每个序列都要实验一遍,代价太高了且让人无所适从,如何从事务数据库中找出商家更感兴趣的精简的“黄金”序列就成了当务之急。因此本文在序列模式的基础上提出了偏爱度,并结合加权的概念,提出了FSPAM算法,经原型验证,该算法挖掘出的序列模式更精简且更有效。
其次、序列模式的经典算法的主要思想都是最开始从数据库中找到所有长度为 1 的频繁序列,由此产生长度为 2 的频繁序列集,接着得到长度为 3 的频繁序列集,如此反复直到数据库不再发现频繁序列为止。象这样重复扫描数据库,造成系统沉重的负担而导致效率不佳。本文利用邻接矩阵来记录事务数据库中 2-项频繁序列,进而生成需要的频繁模式。可以大大减少扫描数据库的次数,使系统的性能得到改善。