论文部分内容阅读
在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况。在传统的基于界标模型的聚类算法CluStream中,没有淘汰过期元组,不能准确反映当前数据流的数据分布状况。滑动窗口是数据流中一种关注近期数据的近似方法。为了提高对流数据聚类分析的质量及效率,对算法CluStream进行了改进,采用滑动窗口来支持数据处理。为了减少聚类操作中每次迭代的计算次数,算法采用改进的k-means来执行聚类操作。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。与聚类算法Clu