基于空间单元密度的聚类算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wafh000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件、硬件和网络技术的快速发展,积累的历史数据成千上万,在这些数据中存在着大量有用的信息。数据挖掘就是用来从大量的、不完全的、有噪声的、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。在数据挖掘包含的众多研究领域中,聚类是一种很有用的技术,它能够在潜在的数据中发现令人感兴趣的数据分布模式。实际的应用对聚类分析提出了如下要求:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、用于决定输入参数的领域知识最小化、处理噪声数据的能力、对于输入记录的顺序不敏感、高维性、基于约束的聚类以及聚类结果的可解释性和可用性。 目前,已经提出了很多聚类算法,基本上分为以下几类:划分方法、层次方法、基于网格的方法、基于模型的方法和基于密度的方法。这些方法各有优缺点,能够针对不同的领域解决不同的问题。但在聚类分析中还存在一些有待解决的问题。 本文根据数据分布的特点,提出了一种基于空间单元密度的快速聚类算法SUDBC,该算法首先将被聚类的数据划分成若干个空间单元,然后基于空间单元密度将密度超过给定阈值的邻居单元合并为一个类。在存储空间单元时,通过建立哈希表提高查找速度。并通过实验验证了这一思想的正确性。实验结果证明了SUDBC算法具有处理任意形状的数据和对噪音数据不敏感的特点。通过与DBSCAN算法相比较,可以看出SUDBC是一种快速的聚类算法。该算法具有如下优点:(1)不用计算两点间的距离;(2)只需对数据进行一遍扫描,故具有近似线性的时间复杂性;(3)主要基于空间单元密度信息进行聚类,而空间单元密度信息要比实际数据小得多,它们可以直接存储在主存中,因此适合对大规模数据聚类。
其他文献
由于无线网络存在高延迟、连接易间断、低信噪比、误码率高等特点。现有的传输协议TCP(Transfer Control Protocol)已经不能很好的满足无线网络的发展需要。如何保证无线链路
本文对基于防火墙设备的嵌入式Linux系统进行了分析和研究,目的是为本项相关课题设计的混合增强型防火墙提供系统运行平台。论文介绍了嵌入式Linux系统的优势,讨论经由建立双
随着移动设备、社交网络、物联网等多种应用的蓬勃发展,人类社会产生的数据呈爆炸式增长。以海量数据为基础的数据密集型应用的出现,不仅对存储系统的容量提出了更高的要求,
随着软件需求的复杂度和对软件的质量与复用性的要求的增加,系统总体结构规划和设计的重要性远远超过了特定算法和数据结构的选择与设计。软件体系结构作为描述系统高层,提高软
由传感器、微机电系统和网络三大技术融合而形成的传感器网络是一种全新的信息获取和处理技术。而无线传感器网络是计算机科学和技术的一个新的研究领域,由于其广阔的应用前
随着时代的进步与科技的发展,人类进入一个高度信息化的社会,人们越来越意识到掌握信息的重要性,各个企业和部门也越来越重视自身信息化的建设。目前,国内的大多数中小企业都已建
数控(NC)技术是近代发展起来的一种自动控制技术,是用数字化的信息实现机床控制的一种方法,也是现代制造技术中最关键的环节。数控插补技术是数控系统的核心技术,其功能强弱直接
UNIX操作系统是当前世界上使用普遍,影响深远的主流操作系统。它具有很高的可靠性、稳定性、安全性。现代企业随着规模的不断壮大,迫切需要通过网络将各个部门联系起来,以加
教材建设及管理是高校教育信息管理现代化的基础及关键,教材管理从传统的人工操作到信息管理自动化、网络化势在必行。本文根据我校教材建设与管理模式的特点,围绕教材三要素在
本文首先通过实现TalentBase系统(TalentBase系统是东软、翰威特联合推出的一个e-HumanResource产品,它基于J2EE规范的企业级信息平台,体系结构采用了符合J2EE规范的MVC三层模式