基于密度和网格的数据流聚类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:tcwf2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,由于计算机及信息技术的高速发展,人们获取数据的能力极大的提高,数据流作为一类重要的数据来源,越来越受到关注。数据流是连续的、快速变化的、有序的、海量的数据,不同于传统的存储在磁盘上的静态的数据,而是一类新型的数据对象。在数据挖掘领域中,数据流己经成为一个研究热点,数据流聚类分析成为聚类研究中的一个重要方向。本文的研究目的就是设计并开发一种既准确又快速高效的数据流聚类算法。为此本文做了以后工作:介绍了课题研究的相关背景和意义;总结了目前比较成熟的几类聚类算法的优缺点和适用性;重点研究了数据流的特点和处理数据流聚类的关键型技术点;在此基础上,通过修改概要数据结构的方法、设计并实现了一种基于密度和网格的数据流聚类算法TD-Stream,该算法借鉴了经典算法CluStream处理数据流的框架,即将系统分为在线层和离线层,以达到聚类准确度和算法速度的平衡。在线层快速处理数据流,并将相关信息保存在概要数据结构中,并通过引入“趋度”,对传统的基于密度网格的数据流聚类算法中计算网格密度的思想加以改进,新数据读取算法计算出新数据的趋度,并以此将数据记录映射到正确的空间网格中,这样就能够解决传统算法基于绝对网格导致的同一网格内数据点属于不同类以及部分网格边缘信息丢失的问题;离线层在概要数据上进行计算提供精确聚类,使用基于密度的聚类算法,能发现任意形状的数据集,同时通过引入网格帧和演化差等概念,系统能满足用户对历史信息聚类和演化分析的需求。因此,算法既有基于网格的高效性,又能更加精确的挖掘具有任意形状的数据流。最后,分别采用仿真数据集和真实数据集对算法进行了实验验证,实验结果表明,算法具有较好的准确性和高效性,能对数据流进行高速有效的聚类分析。
其他文献
当互联网用户对一个疑惑的命题通过搜索引擎寻求答案时,不得不面对几十至几千条的搜索结果进行人工判别。网络上过量的搜索引擎返回结果分散了用户的精力和时间。又由于搜索
物联网下的数字化仓库通过给产品嵌入RFID电子标签,经RFID阅读器将标签内部的物品信息读取之后,由节点自带的无线收发单元通过无线自组织网络、计算机网络将物品信息自动录入企
近年来,计算机技术的不断发展和应用的广泛普及加快了人类社会信息化的进程。数据集成技术是解决甘前普遍存在的“信息孤岛”问题的重要方法。数据集成系统的优劣评判标准是
学位
遥感技术是一种能够对目标进行非接触测量,采集并且分析的一种新型探测技术。随着电子计算机和空间技术的发展,各种资源和环境卫星的发射和成功的运行,通过遥感卫星从太空的高度对地球全貌以及地表动态变化等各种资源信息的提取技术得到了快速的发展。因此,对获得的海量遥感图像进行识别处理,即通过提取图像信息的特征,并利用这些特征进行图像分类,进而达到图像识别一直是遥感技术所要解决的重要问题之一。神经网络因特有的自
随着现代控制技术和计算机技术的迅速发展,以单片机为核心的控制终端控制系统在工业自动控制工程领域中取得了很大的发展,尤其在地理环境恶劣,无人值守,作业点分散,频发小数
为了简化组网结构,提高组网可靠性,网络设备虚拟化技术应运而生。然而随着交换网络面临越来越高的要求,其可靠性、可用性、可管理性等多方面都面临越来越高的挑战,传统的虚拟
射频识别(RFID, Radio Frequency Identification),是一种实现非接触式信息识别和采集的技术。通过RFID系统中读写器设备读取电子标签中的信息,将信息交付给用户或者服务器做
粗糙集理论是一种有效的数据分析工具,它可以处理不确定、不精确、不完备、不一致的数据。然而,经典粗糙集理论是基于严格等价关系的,在处理实际应用中的数据时具有一定的局限性
随着现有的智能家电设备的功能性以及智能家居服务的广泛性的迅速发展,给人们带来的便利有目共睹,可是问题也是层出不穷。除了设备异构性导致的设备互操作困难,应用程序和设
当下医疗行业存在巨量的影像数据,它们对疾病诊断与疗效评价具有重要研究意义。本文将糖尿病患者的视网膜眼底图作为数据集,进行深度学习算法的应用研究。在算法上对于糖尿病