论文部分内容阅读
上世纪末,为适应网络监控、入侵检测、情报分析、商业交易管理和分析等应用的要求,数据流技术应运而生。数据流是以连续的、有序的“流”的形式输入数据,有时效性、实时性、无限性和瞬时性等特点。典型的数据流有网络点击流、实时监控数据流、股票数据流、超市的销售数据流等。对数据流的分析主要包括分类、聚类和频繁模式挖掘三个方面,其中都用到了一些新的技术和方法,如滑动窗口、一次性扫描算法等。本文在介绍数据流及数据流挖掘关键算法的基础上,针对超市的销售数据流进行分析,提出了一种度量商品之间相关性的算法,进而提出了一种基于相关性的数据流聚类算法,对商品进行聚类分析。本文的研究主要集中在以下几个方面:(1)概述了数据挖掘及数据流的概念、数据流挖掘的关键技术及典型算法,重点分析了数据流分类算法VFDT和CVFDT、数据流聚类算法STREAM和CluStream、数据流频繁模式挖掘算法FP-Stream等。(2)针对超市中商品之间的相关性问题,提出一种基于数据流的相关性度量算法,以计算出商品间相关性的大小,利用数据流的一些方法,在有限的时间和空间里动态计算出基于持续到来的销售数据流的商品之间的相关性。实验显示,该算法能以较小的代价有效地度量超市中商品之间的相关性。(3)针对超市中商品之间的聚类问题,提出一种基于相关性的数据流聚类算法,在前面计算出的商品之间相关性的基础上对商品进行聚类。该算法是一个动态更新的算法,实验显示,该算法能有效地对超市的商品进行聚类,得到了非常有价值的聚类结果。