基于密度网格结构的数据流在线聚类算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhanghongyingyxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网络技术的不断发展,各个应用领域都在源源不断地产生数据,而这些数据通常以流的形式出现,例如传感器网络产生的数据流、股票交易流、超市结算流、网络通信流等。数据挖掘融合了统计学、数据库、机器学习等技术,帮助人们从海量数据中抽取出有用的知识,从而为决策提供重要依据。   数据流具有高速流动、快速变化和潜在无限等特点,因此要求数据流挖掘算法必须满足单次线性扫描、压缩存储、低的时间复杂度等要求。现有的数据流聚类算法,大多数停留在在线收集和离线分析阶段,典型的算法如CluStream。这类算法的缺点是实时性差,不能在线生成用户需要的聚类,精确的聚类结果需要经过离线分析才能获得。   针对这些问题,本文对数据流的在线聚类算法进行了研究,主要研究内容包括以下几方面:   (1)使用密度网格的存储结构,将数据流的概要信息以统计值的形式存储在网格单元中。通过设置密度网格阈值Cmax和Cmin,能有效地控制聚类质量。密度网格结构容易更新和维护,从而提高在线聚类效率,并节省存储空间。   (2)本文采用计数型滑动窗口来保存当前数据流。通过调整窗口滑动一次的步数step,可以有效地节省系统资源。   (3)定义了网格邻居和网格簇等概念,设计优化的网格合并和更新规则,使算法能够区分数据密集区域和稀疏区域,并较快地找到数据分布中存在的簇,提高算法的实时性。   (4)在论文研究过程中,通过大量的实验分析和对比,不断调整和优化算法,取得了较好的聚类质量和在线聚类效率。   实验结果表明本算法具有快速在线聚类能力,同时保证了良好的聚类质量。
其他文献
报表是信息交换的一种重要形式,常用统计报表系统内部数据的处理方式一般都采用数据与报表结构紧耦合的存储、管理方式。现有报表系统通常并不支持针对报表数据的全局统计查
随着计算机技术的迅猛发展,特别是仿真技术的日趋成熟,地形实时可视化在3D GIS、战场环境仿真、虚拟现实等领域中有着广泛的应用,而地形可视化研究中的热点课题便是动态地形
现今,电网自动化程度快速发展,给获得故障数据提供了更加便利的条件。一旦事故信息变得复杂,将会有许多的警报信息快速涌入调度中心,这种情况下需要调度人员掌握核心警报信息,然而快速准确地识别故障是十分不容易的,不可避免的会出现误判、漏判。所以,信息处理人员需要依傍有效的电网故障诊断系统给予决策参考,作为辅助评判,以确保运行安全。许多传统的故障诊断方法是使用保护装置、断路器等开关量信息,使用某种智能算法来
人脸跟踪算法的研究,一直都是计算机视觉与模式识别领域中的研究热点。近些年来随着计算机视觉领域的发展,越来越多的研究人员关注人脸跟踪问题,主要因为人脸跟踪具有广泛的
随着企业信息化建设的不断进步及互联网技术的发展,很多企业都开发了各类Web应用系统。这些Web应用技术实现方式也大多不尽相同,甚至可能采用了不同的开发语言,并且这些系统
长久以来,由于实现变电站系统和装置设备的通信规约存在数据含义不明确、数据之间缺少关联和设备不能自描述等问题,使得各个厂家的设备只能独立运行,不能相互通信,设备间不能
图像分割作为图像处理技术的一个重要的应用领域,其目的就是对原始的图像进行某种运算,把图像分离成具有不同特征的区域,把感兴趣的对象提取并显示出来。近年来,在两相图像分
多Agent是人工智能领域一个重要的研究方向。目前,关于多Agent的技术研究已经深入到社会的各个方面,但对多Agent对话系统的研究还较少。   多Agent对话系统是一个能够模仿该
随着SOA技术的发展,更多的服务提供商将服务以Web透明化的形式提供给广大的用户,具有松耦合、易扩展等特点的面向SOA的Web服务系统的性能是本文研究的重点。面向SOA的服务系
随着Web技术的普及,Web应用程序漏洞检测技术越来越成为国内外研究的重点和热点。本文介绍了Web应用程序现存的漏洞以及带来的危害,研究了Web应用程序漏洞检测的原理和实现技
学位