论文部分内容阅读
近年来,数据流聚类问题得到了学术界的广泛关注,国内外学者对此进行了许多研究,但仍存在算法效率、存储空间、聚类精度等方面的问题需要解决。本文通过对常见的数据流聚类算法进行研究,分析各个算法的优缺点,并在此基础上提出了优化的数据流聚类算法。许多数据流都是以高维的形式存在,如果对这样的数据做全维聚类,算法效率不高。此外,数据流是时序的,而人们往往更加关注最近的数据。本文提出了一种基于滑动窗口的高维数据流聚类算法HSWStream。首先,使用投影聚类技术对数据流进行降维,提高了高维数据流的聚类效率。其次,引入滑动窗口模型减轻历史数据对聚类结果的影响,利用聚类特征指数直方图维护滑动窗口中簇的概要信息。最后,改进了指数直方图的维护方式,提高了算法性能。实验结果证明,与HPStream算法相比,HSWStream算法聚类精度更高,占用内存更少,具有良好的可伸缩性。许多基于网格的聚类算法,虽然可以处理任意形状的簇,但仍存在缺陷。由于数据空间被网格化,使得某些处于簇边缘的网格,可能因为包含数据点过少而被视为孤立网格,如果将其删除,会造成簇边缘信息的丢失,从而降低了聚类精度。本文提出了一种基于网格密度和引力的数据流聚类算法F-Stream。算法采用CluStream双层框架,将聚类过程分为在线和离线两部分。在线层将新的数据点映射到相应网格并更新网格特征向量,离线层将网格合并成簇。算法使用了基于网格引力的簇边界处理技术,从而提高了聚类精度,使簇边缘更加平滑。F-Stream算法在判定簇边界网格是否为零星网格的策略中,不以距离作为唯一标准,而是综合考虑了网格密度和网格质心之间距离两个因素。网格质心的计算采用加权平均值而非算术平均值,因此质心的位置能够间接反应网格中数据点的分布情况,质心的增量式更新为算法节约了大量的时间和空间。实验结果证明,与CluStream相比,F-Stream取得的聚类质量更高,处理速度更快;与D-Stream算法相比,由于使用了簇边界处理技术,避免了簇边界信息的丢失,聚类精度更高。