基于滑动窗口与网格密度的数据流聚类算法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kinglovechina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据流聚类问题得到了学术界的广泛关注,国内外学者对此进行了许多研究,但仍存在算法效率、存储空间、聚类精度等方面的问题需要解决。本文通过对常见的数据流聚类算法进行研究,分析各个算法的优缺点,并在此基础上提出了优化的数据流聚类算法。许多数据流都是以高维的形式存在,如果对这样的数据做全维聚类,算法效率不高。此外,数据流是时序的,而人们往往更加关注最近的数据。本文提出了一种基于滑动窗口的高维数据流聚类算法HSWStream。首先,使用投影聚类技术对数据流进行降维,提高了高维数据流的聚类效率。其次,引入滑动窗口模型减轻历史数据对聚类结果的影响,利用聚类特征指数直方图维护滑动窗口中簇的概要信息。最后,改进了指数直方图的维护方式,提高了算法性能。实验结果证明,与HPStream算法相比,HSWStream算法聚类精度更高,占用内存更少,具有良好的可伸缩性。许多基于网格的聚类算法,虽然可以处理任意形状的簇,但仍存在缺陷。由于数据空间被网格化,使得某些处于簇边缘的网格,可能因为包含数据点过少而被视为孤立网格,如果将其删除,会造成簇边缘信息的丢失,从而降低了聚类精度。本文提出了一种基于网格密度和引力的数据流聚类算法F-Stream。算法采用CluStream双层框架,将聚类过程分为在线和离线两部分。在线层将新的数据点映射到相应网格并更新网格特征向量,离线层将网格合并成簇。算法使用了基于网格引力的簇边界处理技术,从而提高了聚类精度,使簇边缘更加平滑。F-Stream算法在判定簇边界网格是否为零星网格的策略中,不以距离作为唯一标准,而是综合考虑了网格密度和网格质心之间距离两个因素。网格质心的计算采用加权平均值而非算术平均值,因此质心的位置能够间接反应网格中数据点的分布情况,质心的增量式更新为算法节约了大量的时间和空间。实验结果证明,与CluStream相比,F-Stream取得的聚类质量更高,处理速度更快;与D-Stream算法相比,由于使用了簇边界处理技术,避免了簇边界信息的丢失,聚类精度更高。
其他文献
随着硬件的快速发展,使得多核计算成为了可能,为解决海量数据的计算提供了一种有效的方法。本文针对游戏和计算机仿真问题当中的真实感图形的显示实时性要求和渲染效果,对计算机
视频监控系统具有其他非图像信息所没有的丰富内容、直观以及方便等特点,被广泛应用于住宅社区、交通、金融、医院、公安、海关等领域。今天,计算机网络技术,数字信息技术、通信
视频图像中的文本信息作为其内容描述的一种形式,包含了十分丰富且重要的表达信息。采用文本这种高级语义形式,在对视频内容理解和索引方面,具有十分重要的科研价值和应用前景。
金融领域中存在着众多复杂的、分布式的、异构的应用系统。这些应用系统之间存在着大量的业务数据交互需求。国内金融行业某交易中心为了使证券交易数据能够异步地、可靠地、
面阵相机在实际成像时,由于镜头光学特性等因素会使图像发生不同程度的二维几何畸变,这给面阵相机的使用带来非常不利的影响。随着面阵相机被广泛应用于生产、研究等诸多领域
计算机网络的应用与普及改变了人类的学习、生活、工作方式,推动了人类社会变革,但网络中充斥着大量旨在破坏系统和网络运行的恶意代码成为了信息安全的最大威胁,因此恶意代
针对射频识别RFID(Radio Frequency Identification)的安全和隐私问题,一种被普遍认可的解决方法是利用安全认证协议来为RFID系统提供安全有效的访问控制和身份认证机制。但由
电子商务为用户提供了丰富的信息资源。然而,由于资源的复杂性和多样性,用户很容易迷失在海量的信息汪洋中,从而出现“信息过载”现象。个性化推荐系统能有效改善“信息过载”对
随着我国城乡一体化进程的不断加快以及私家车的逐渐增多,道路交通管理系统的承载力显得越来越有限,因此基于视频的智能交通系统就显得尤为重要,已成为发展现代道路交通的重要内
针对下一代网络(Next Generation Internet, NGI)在移动性、安全性、传输速率、服务质量(Quality of Service, QoS)等方面的高要求,作者所在的网络通信实验室(SC-Netcom Lab)