数据密集型计算环境下聚类算法的研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:gutj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据密集型计算越来越得到相关学者的关注。数据密集型计算环境下的数据具有海量、高速变化、分布、异构、半结构化或非结构化的特点,传统的数据挖掘算法已经不能满足其处理要求。如何从具有这些数据特点的数据中挖掘出有效的信息,成为当前数据挖掘领域所面临的一大挑战。聚类分析是当前一种常用的数据挖掘工具,是将无规则的数据点依据某一方面的相似性分成若干类,使得每个类中的所有数据点在该方面相似性最大,不同类中的数据点在该方面相似性最小的过程。常见的聚类分析算法有分割方法、层次方法、基于密度的方法、基于网格的方法和基于约束的方法等。本文分析了数据密集型计算环境下数据的特点,介绍了聚类分析的相关理论知识,重点讨论了基于划分的k-means算法和基于密度的DBSCAN算法;介绍了开源项目Hadoop以及相关子项目,特别是对Hadoop分布式文件系统(Hadoop Distributed File System)和MapReduce编程模型进行了深入的分析和研究。本文基于MapReduce编程模型,讨论了k-means算法及DBSCAN算法在数据密集型计算环境下的实现。针对k-means算法对局部数据集的鲁棒性较差、准确率低,而在主节点对全局数据集具有较好的伸缩性及准确率;局部分节点容易产生较多的噪声点和异常点,而DBSCAN算法可有效的识别噪声点及异常点等特点,取长补短,优化两种聚类算法,提出一种改进的基于MapReduce的聚类算法IDBDC;局部聚类采用DBSCAN算法的优化,全局聚类采用k-means算法的优化,使其适用于数据密集型计算环境下的数据分析挖掘。在MapReduce模型上的实现部分,划分为三个阶段,即Map阶段、Combine阶段和Reduce阶段。分节点上的Map阶段执行DBSCAN算法,生成含有簇及噪声点ID、数据点个数及密度的键值对<key, value>,并由Combine阶段进行相关合并,发送到主节点执行Reduce阶段全局的k-means算法。最后在Hadoop实验环境下利用数据集DOCWORD.NYTIMES进行实验,实验结果表明:IDBDC算法在数据密集型计算环境下表现出了较高的执行效率和准确率,能够较好的适用于数据密集型计算环境下的数据分析。
其他文献
动态心电图(Ambulatory Electrocardiogram,AECG),又称Holter,经过四十多年的发展,其在无创心电辅助诊断技术领域应用非常广泛,成为临床上最为常用的心脏检查和医疗监护工具之一。
随着数据库日益增加的需求和信息技术的飞速发展,集中式数据库已越来越不满足当前数据存储的需求,因此分布式数据库系统应运而生。而在分布式数据库系统的设计中,数据分配问题是
近30年来,图像分割一直是图像分析和计算机视觉一个活跃的研究方向,大量的图像分割算法被提出。图像分割是图像分析的一个中间环节,分割质量的好坏直接影响后续处理的质量。图像
随着企业不断加大科技投入,计算机仿真技术得到了广泛的重视,它具有经济、安全以及可重复性等特点,利用计算机仿真技术可以进行现场难以展开的工作,降低实验风险,提高投资安全性。
医学图像分割技术是医学图像处理与分析领域的重要课题之一,也是近年来备受研究人员关注的热点问题。由于人体解剖结构的复杂性、组织器官形状的不规则性及个体之间的差异性,
二十一世纪以来,伴随着科学技术的迅速发展,人们每天都要处理大量的信息数据(例如图像、视频以及文档资料等)以便进一步地分析和研究。图像作为常用信息的载体之一,在人们接
伴随着互联网的快速发展与互联网技术的不断创新,社交网络日益成熟和完善。在众多的社交网络类型中,有一种以活动为媒介将线上与线下相结合的社交网络——活动社交网络(Event
内存交换技术几乎应用于所有的计算机系统,交换操作中频繁的外存访问是制约程序运行性能的一个重要因素。近年来,随着新型存储介质闪存的快速发展,越来越多的研究关注于使用闪存
视频跟踪是计算机视觉领域的一个重要研究方向,它融合了模式识别、图像处理、图像表征和计算机应用等相关领域的研究成果和先进技术,在智能监控、交通管制、人工交互、军事精
伴随当前三维快速原型技术的飞速发展及商业化,大量数字模型通过三维打印等技术完成实体化并被投入商业应用中,从而也带来了模型管理以及版权保护的需求。传统水印算法面向数字