基于网格的MST数据流聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:liongliong500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中一个非常重要的研究方向。近年来,随着信息技术的高速发展出现了一种应用日益广泛的动态流数据—数据流。数据流不同于传统的存储在磁盘上的静态数据,它是高速的、连续的、动态的、快速变化的、海量的数据集合,由此对它的访问只能是顺序的、一次或有限次的。数据流的这些特性既给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。在当前的数据挖掘领域中,数据流已经成为一个研究热点,同时数据流聚类分析也成为聚类研究的一个重要方向。 本文首先介绍了数据流挖掘的相关理论与技术,结合流数据与传统的静态数据的不同分析了数据流的特点。同时对传统聚类算法与数据流聚类算法进行了研究和对比,分析了算法的优势与不足,阐述了数据流聚类算法的特点及其与传统聚类算法的不同。然后介绍了用于聚类算法的网格划分方法及其在聚类分析中的作用,并对基于网格的聚类算法进行了研究与分析。在此基础上给出了一种新的数据流聚类算法—GTSClu算法,该算法是基于网格的最小生成树(MST)数据流聚类算法,算法分为在线处理与离线聚类两部分,并运用了网格与最小生成树技术。在线部分通过均匀网格划分数据空间以获取数据流的信息,离线部分将网格空间拆分为不均匀的网格结构,并利用最小生成树技术对在线获得的信息进行聚类。GTSClu算法可以有效排除噪声数据发现任意形状的聚类,有效提高了聚类效率和质量。 实验结果表明,GTSClu算法能够发现任意形状的聚类,对数据的输入顺序不敏感,而且网格拆分技术的采用使其能够有效分离出噪声数据具有很高的聚类精度和处理效率,适合处理大规模的数据流。
其他文献
NAND闪存已经成为主流的存储介质,并被广泛地应用到嵌入式、桌面、服务器以及数据中心等各种计算机系统中,并仍迅速地挤占传统纯磁性材料存储介质的市场。与此同时,在航空航
实时操作系统在当前的各个领域得到广泛应用,越来越引起人们的重视。在众多的实时操作系统中,基于Linux的实时操作系统,由于开放源代码,以及Linux系统的稳定性,日益受到人们
随着互联网及大数据时代的到来,新数据的产生速度几乎在以指数级的形势增长,而这大量的数据当中,又以格式不确定的非结构化数据为主。文档数据作为非结构化数据的重要组成部
信息社会使人们对于数据的重视程度越来越突出,人们希望挖掘数据中蕴含的规律。因此,找到一种高效、准确的函数关系发现方法是数据挖掘方面的一个研究重点。演化计算在函数挖
红外成像可以识别伪装。在云雾天气下,也很容易成像。相反,可见光图像很容易受天气干扰。但它具有很好的光谱分辨率。所以在同一视场中对同一目标拍摄红外线图像和可见光图像
粗糙集理论是一种处理不准确、不确定和不完备信息的有效分析工具,能利用现有知识库中的知识对不完备信息进行近似刻画处理。属性约简和决策规则提取是粗糙集的两大核心研究
随着计算机技术和信息技术的飞速发展,如何通过人机界面更加自然和友好的交流成为研究热点,其中,语音交互方式的研究成为普遍关注的焦点之一。语音交互中非常重要的一项技术
P2P网络是近年来业界研究和关注的一个焦点,它在很多领域都得到了应用,其发展空间很大。但是,P2P网络固有的开放性和匿名性也为提供虚假文件、恶意攻击等恶意行为提供了可乘
学位
随着信息技术的发展,基于WEB的各种网络应用系统随之产生,这些网络应用系统应用于社会行业的各个领域。把计算机网络技术与发展党员工作相结合,开发设计发展党员工作实时监控