基于云计算平台Hadoop的聚类研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liongliong542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,数据的规模不断扩大,从KB量级发展到TB甚至PB量级。如何从海量的数据中快速有效地挖掘出对用户有用的知识,是数据挖掘所面临的一个新的挑战。Hadoop是一个开源的云计算平台,可以实现海量数据的高效存储和分析。聚类分析是数据挖掘的重要分支,基于Hadoop平台的聚类研究是一个新的热点。  论文研究了云计算技术和聚类分析技术,着重研究了基于Hadoop平台的聚类方法。主要内容包括:  (1)研究云计算技术。重点对 Hadoop平台的分布式文件系统(HDFS)和编程模型(MapReduce)的核心架构、技术以及相关的机制进行深入研究和分析,为算法设计和实现奠定坚实基础。  (2)研究聚类分析技术。重点研究了聚类算法的基本流程、设计要求和评估标准,剖析了基于层次、基于划分、基于密度以及面向高维数据的聚类算法思想,分析了基于云计算平台聚类分析技术的研究现状。  (3)针对现有很多聚类算法不能有效迁移到云计算平台的问题,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法借鉴微簇的思想,将数据划分后得到的每个分组抽象成一个特征向量,并将它当做一个虚拟点处理,可以保证比较紧凑的点始终属于同一个簇,提高聚类质量。算法在聚类过程中只对原始数据进行一次划分,避免了很多传统聚类算法迭代操作原始数据集的做法,仅需少数几个job就能在MapReduce框架上完成并行化操作。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,同时具有良好的可伸缩性和时间稳定性。  (4)针对 MapReduce在执行算法过程中产生大量中间值的问题,提出SnIClustering聚类算法。算法借鉴采样和过滤的思想,尽量减少最终聚类过程所涉及到的数据量。首先,使用概率采样的方式从原始数据集中抽取极少量具有全局代表性的样本;然后,根据这些样本的分布特征对原始数据集进行有效过滤;最后,在单个节点上对过滤后保留下来的数据和样本进行聚类。实验结果表明,SnIClustering算法具有良好的时间效率和较高的聚类质量,同时具有良好的可伸缩性。
其他文献
当今世界,互联网对人们生活的影响越来越大,人们越来越依靠它进行信息交流。然而网络的安全现状却令我们担忧甚重。入侵检测技术作为防护计算机网络安全的一个重要措施,成为
随着计算机技术的发展和计算机网络的逐步完善,远程教育作为一种新型的教学模式对满足信息社会终身教育、全民教育、个性化教育以及社会化教育的需求,加速我国的教育事业的发
对国内外工作流系统的研究分析表明,对支持动态变化的工作流的研究已经成为当今工作流领域的研究重点和热点。现有的绝大部分支持动态变化的工作流系统不能很好的解决工作流
随着计算机网络的迅速发展和日益普及,有关网络的安全问题也日益突出。入侵检测是对防火墙、病毒检测、加密等传统计算机安全机制的一种有益补充,增大了对系统与网络安全的保护
随着新媒体的不断诞生,传统媒体如何利用新媒体来发展自身开始受到人们的关注。作为Web2.0以后代表性的新媒体平台,博客的价值越来越受到传统新闻媒体的重视。新闻媒体根据博客
搜索引擎是随着世界范围内的Internet的发展而产生的。但是,由于Internet以及后来出现的WWW技术的迅猛发展,导致其所蕴涵的信息量急剧地膨胀。面对当前如此庞大的信息数据,而目
远程监控系统主要用于完成远程现场点的数据采集、处理、实时监控等功能.传统的远程监控系统采用自动控制技术、计算机技术并已广泛应用于工业自动化、工业控制领域.然而,由
网格计算是分布式计算的一种,目的是为用户构建一个统一的、整合的、虚拟的计算环境,实现跨组织的资源共享、管理与访问。网格所要实现的功能,远不只是数值科学计算,还包括各
本文中通过对实际业务提供方式与智能网概念模型进行映射研究,并在总结无线智能网的业务模型基础上,提出了基于业务特征模块化的多业务融合的解决方案,并且对此方案在基于CMIN02
随着我国信息化前进的步伐以及互联网技术的迅速发展,电子政务的建设已经在全国各地广泛展开。为了解决目前存在的电子政务系统之间各自为政、互不相通和重复建设等问题,本文将