论文部分内容阅读
伴随着计算机技术和信息全球化的高速发展,我们迎来了大数据时代,人们面临着从数据中获取有用信息以支持更好的决策和发展。面对着源源不断产生的大量的流数据,如何从流数据中获取知识越来越得到重视。设计并实现一种既聚类质量好和聚类效率高的数据流聚类算法是本课题的主要研究内容,主要工作内容如下:在对课题的领域进行深入理解以后,研究了流数据的特性和处理流数据的聚类的要求与技术;总结了目前较经典的流数据聚类算法的实现技术和优缺点进行了;并对基于网格的聚类算法进行重点研究。在以上工作的基础上设计并实现了DD-Stream算法,该算法采用了CluStream算法中提及的双层框架的思想。在在线层,不断顺序访问数据集中的数据点,根据维度半径的大小并按照一定的规则对数据空间进行划分,从而形成网格结构,并得到数据流的概要信息,同时以网格单元特征向量的形式记录这些信息。其中,为每个数据点设置了密度系数,密度系数和该数据点到达的时间点有关,它随着时间递减,将历史数据和当前数据的重要性区别开来,体现了流数据的演化特征。同时,每个网格都有网格密度,每一个网格的网格密度由所有映射到该网格的数据点的密度系数形成,因此,网格密度随着时间或者随着新数据点的不断加入而更新着。在后台离线层把稠密网格衰退成稀疏网格的最小时间gap作为确定检查、更新网格的时间间隔的长度,并根据网格密度和连通性对网格进行聚类,聚类分成初始化聚类和调整聚类两种,初始聚类只在第一个gap时进行聚类形成初始聚类的结果,在此基础上以后每隔gap就对网格进行聚类并对满足条件的稀疏网格进行删除,同时调整簇聚类。最后,通过在人工数据集和真实数据集上对算法进行实验验证,证明了算法取得了满意的聚类质量和聚类效率,能对流数据进行高速有效的聚类分析。