论文部分内容阅读
数据挖掘是近几十年来随着信息技术发展和计算机技术的兴起而产生的一门新兴学科。随着网络技术和信息技术的迅猛发展,近几年在数据挖掘领域出现了对新的数据形式即数据流的研究,流数据的特点是连续性、高速性、无限性以及不可预测性,由于只能对该种数据进行一次性扫描,并且数据流的规模比较大、要求实时性以及快速响应等特点,这就对数据流挖掘算法提出了更高的要求。而对于流数据中频繁项集的挖掘已成为当今挖掘的一个热门课题,关于数据流上频繁项集的挖掘已经产生了很多实用的技术如滑动窗口技术、时序模式挖掘以及界标窗口技术等。本文的主要研究工作就是针对流数据上基于滑动窗口技术的频繁项集挖掘算法研究。 本文的主要工作如下: 1.本文分析了数据流的挖掘现状以及国内外的相关研究动态,简单介绍了数据流中几种经典的数据挖掘算法,从而对数据流的挖掘有了很好地了解。 2.改进 TOPSIL-Miner算法的基础上,形成一个新的基于数据流滑动窗口的前 K个频繁项集动态更新挖掘算法,采用二进制向量表示法进行项的存储与计算,并构建相关的项目序表,通过位移运算实现项集的增量式更新,并利用二分插入法将支持度在一定范围内的项集插入到项目序表中,最后降序输出前 K个频繁项集。通过实验证实,与其它相似算法相比该算法具有较好的时空性能。 3.对于数据流中连续的查询要求提出了一个新的灵活结构称之为加权滑动窗口模型。该模型允许用户指明用来挖掘的数据流中的窗口数量、窗口大小以及每个窗口的权重。基于此模型,提出了一个单程扫描算法WSW,该算法结合窗口权重计算出项的加权频数同时过滤掉加权频数小于指定阈值的候选项。然后探讨、改进WSW算法形成了一个新的算法 WSW-Imp,该算法能进一步减少判断一个候选项集是否是频繁项集的时间。通过实验证实,算法WSW-Imp是优于其它类似算法的。