论文部分内容阅读
随着信息技术的发展,很多应用领域都产生了大量流数据,因此流数据挖掘成为数据挖掘领域的热门研究课题。其中流数据闭合频繁模式挖掘是流数据挖掘领域的一项关键技术,被广泛应用在商业决策,购物篮分析和网络数据分析等多个领域。流数据闭合频繁模式挖掘要求在快速到达的数据流中高速的存储有用的数据信息,在客户有需求的时候进行闭合频繁模式输出,以指导客户做出决策。但是现存的流数据闭合频繁模式挖掘方法存在在线处理时间过长的问题,从而不能处理数据高速产生的情况。 本文深入分析了现有的流数据闭合频繁模式方法,针对现有方法存在的在线处理时间较长的问题提出了一种新的解决方法 DELAY-CFIM,将流数据闭合频繁模式挖掘分成数据压缩与闭合频繁模式挖掘两个步骤。首先,在数据产生时对其进行简单的统计和压缩。然后,在客户提出查询要求时,再进行闭合频繁模式挖掘,从而能够处理数据高速产生的情况。在客户查询不是很密集的情况下可以产生很好的结果。 本文的主要研究内容如下: (1)本文提出了一种新的基于滑动窗口概要数据存储结构 OTT。OTT在数据到达的时候被用来存储数据频度信息,达到数据统计与压缩的作用,使得在客户提出查询请求时可以缩短闭合模式挖掘所需时间。 (2)本文提出了一种新的闭合树模型 CFIT。CFIT结合了链表与树,将闭合模式进行存储,在有需要的时候对频繁模式进行检测以判断它的闭合性,CFIT的特殊存储结构能够大大加快闭合模式检测的速度。 (3)本文提出了一种基于 OTT和CFIT的闭合频繁模式挖掘方法 DELAY-CFIM。首先在OTT上通过后缀重新插入的方法产生频繁模式,再通过 CFIT对这些模式进行闭合模式检测。从而在客户提出查询请求时正确输出闭合频繁模式。 (4)本文在上诉提出的闭合频繁模式挖掘方法的基础上提出了四种剪枝策略,既减少了OTT上产生的潜在闭合频繁模式数量又缩短了闭合检测所需时间,从而大大减少了算法运行时间。 本文最后将所提出的算法 DELAY-CFIM与经典流数据闭合频繁模式挖掘算法CFI-Stream进行了比较。结果显示在客户查询不是很密集的情况下,本文算法可以大大减少数据在线处理时间,从而可以对高速产生的数据进行有效的处理,避免数据丢失的情况产生。