基于MapReduce的K_means聚类算法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:pengxianwei1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的飞速发展,数据量的积累也越来越多。如何更高效快捷地从海量数据中得到有价值的信息并将其应用到相关领域中,成为当前范围内急需解决的前沿问题。为了解决这一难题,研究人员提出了越来越多的聚类分析算法。目前,聚类分析已经在很多领域被广泛应用,例如:金融、军事、医疗、管理等。K_means聚类算法是聚类分析中使用较为广泛的一种,其思想简单且易操作.但是该算法随机选择初始化中心使聚类结果不稳定且易出现局部最优解,此外,当数据集中存在孤立点时聚类结果也会受到影响。随着聚类数据日渐增多,K_means算法迭代次数增加且耗时严重,传统的单机运行模式已经不能满足实际需要。MapReduce是基于Hadoop平台的一种分布式计算模型且是当前运用较为广泛的一种分布式计算框架,HDFS也实现了对文件的分布式存储,所以将单机上的聚类分析算法移植到Hadoop平台上可进行分布式聚类任务。针对上述K_means算法的不足,文章中提出了一种对K_means算法进行优化的算法且对其实现了并行化。首先,本文梳理了聚类分析的研究背景及国内外研究现状并列举了论文的主要工作及创新点。其次介绍了聚类分析技术中的度量和聚类算法的划分等,并通过HDFS分布式文件系统及MapReduce编程模型两方面介绍了Hadoop技术。然后,针对K_means算法随机选择初始中心点和易受孤立点影响问题提出了一种基于最大距离法改进的初始中心点选择算法和孤立点排除法,此外还结合MapReduce编程模型的特征对改进后的K_means算法进行并行化处理,使其能够运行在Hadoop平台上。最后,不仅在单机环境下做了对比实验来证明本文算法在处理聚类问题时的优劣性还在并行环境条件下通过加速比和扩展率来证明文中提出的算法是否适合对其进行并行化处理。
其他文献
随着P2P网络技术的逐渐深入,P2P作为一种分布式网络技术在许多领域得以广泛的应用,尤其是针对资源共享。然而由于网络所存在的固有的安全性问题已成为制约P2P网络中资源共享
随着网络技术的不断发展,基于UDDI的传统的Web服务发现技术已越来越不能满足目前的需求。UDDI由于没有提供足够的语义信息,只能够进行基于关键字的服务查找,匹配精度不高。因
随着全球经济一体化,各个行业的竞争也越来越激烈。对于机械加工企业来说,如何提高生产率、产品质量和减少生产成本,成为企业关注的焦点话题,也成为企业生存的根本因素之一。
随着多媒体技术和网络的快速发展,图像信息资源大量增多,图像的有效管理和检索变得越来越重要。用户如何从海量图像数据库中快速而又淮确地检索出需要的图像,是目前研究的一
传统的信息检索技术往往是集中式的,随着数据量的指数增长,这种集中式的数据存放对于数据库的更新维护带来很大的难度,同时检索查询操作也变得非常费时,这造成了整个系统性能
话题识别与跟踪,作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线、广播、电视等新闻媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的
缓冲区溢出攻击是利用缓冲区溢出漏洞所进行的攻击。缓冲区溢出是指当计算机向缓冲区内填充数据时超过了缓冲区本身的容量,溢出的数据覆盖在合法数据上。缓冲区溢出是一种非常
图像数据包含着丰富的信息,但相应的数据量也非常大。因此,在实时应用中,对图像的检索具有了更高的要求。现有的基于内容的检索方式(CBIR),虽然检索效果相对较好,但需要对图
选举是当今公民实现民主的重要方式,相比于传统选举方式,电子选举以密码学为基础,可以有效避免在各个环节中出现徇私舞弊现象,并且通过使用高效的计算机来对选票进行最后的统
随着信息化建设的深入和网络技术的发展,相当数量的企业积累了大量的存储在不同平台、依赖于不同数据库管理系统的数据和众多非结构化数据(如XML文档、文本文件等)。如何通过