论文部分内容阅读
序列关联规则挖掘是数据挖掘的一个重要研究领域,它反映了大量数据中序列之间有趣的关联或相关联系[1]。但是我们通过传统算法产生的序列关联规则存在着非常多的冗余规则,用户在分析或者利用这些序列规则时意义不大。为了利于用户分析,我们可以采用多种有效技术对冗余规则进行修剪。目前,国内外针对序列正关联规则中冗余规则修剪技术的研究颇多,并提出了多种修剪算法,但对负序列关联规则中冗余修剪技术的研究较少。为此本文采用以下技术进行冗余修剪:(1)结合已有的冗余定义和定理,推出负关联规则中的冗余定义和定理,具体包括以下几点:1)A(?)B型关联规则中的冗余修剪:如果A, B ((?)) I ,A∩B =Φ,B’((?)) B, A(?)B’是一条有效的负关联规则,并且corrA,B<1,那么A(?)B就是A(?) B’的冗余规则;2)(?)A(?)B型关联规则中的冗余修剪:如果A, B (?) I , A∩B =Φ, B’(?) B, (?)A(?)B是一条有效的负关联规则,并且corrA,B<1,那么(?)A(?)B’就是(?)A(?)B的冗余规则;3)(?)A(?)B型关联规则中的冗余修剪:如果A, B (?) I , A∩B =Φ,B’(?) B, (?)A(?)B’是一条有效的负关联规则,并且corrA,B>1,那么(?)A(?)B就是(?) A(?)B’的冗余规则。(2)我们挖掘正负序列规则时,除了序列模式,还应该考虑非频繁极大序列,因为从中可以挖掘到大量的负序列规则。在冗余序列关联规则进行修剪时,我们不仅要考虑相关性还要考虑时间因素。因为在相关性的表达式中,supp (A∪B)表示B发生在A的后面。结合相关性和时间因素,运用本文提出的正负序列关联规则中的修剪定理,在现有的冗余关联修剪算法的基础上提出了一种改进的基于序列模式的冗余规则修剪技术并给出算法。实验结果证明该算法能够有效地减少序列关联规则的数量。