基于迭代式MapReducede的海量数据并行聚类算法研究

来源 :中国科技论文 | 被引量 : 0次 | 上传用户:renrenxiaonei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决传统K-means算法在处理海量数据时存在的不足,提出了1种适用于并行Canopy-Kmeans算法的迭代式MapReduce模型。通过Canopy算法对数据进行初始聚类,得到初始聚类中心,并按照初始聚类将数据存储于Mapper节点,减少Mapper和Reducer节点之间通信线路,减小运算量;在Mapper节点和Reducer节点之间建立互通信,将聚类中心作为迭代流通信息,减少信息流量;最终通过1次运算过程输出最终聚类结果。实验结果证明,改进的算法在时间、正确率和加速比性能方面,均优于传统的串行K
其他文献
进化算法的出现为许多复杂优化问题的求解提供了新的思路,由于进化算法具有的智能性、通用性、稳健性、本质并行性和全局搜索能力,已在各个静态优化领域得到了成功的应用。近
智能制造是制造业转型的主攻方向,智能制造共享商业模式的创新有助于推进智能制造的发展,本文以沈阳机床为案例,采取单案例研究方法,从价值创造视角出发,提出了商业模式的新
机采棉杂质含量高,多级籽棉清理和皮棉清理会造成纤维损伤,为综合提高皮棉产品的外观形态和纤维内在质量,提出了对机采棉加工工艺进行过程优化控制的研究方法和试验方案。在
作为一类在图像处理、模式识别、最优化问题等领域有广泛应用背景的动力系统,神经网络的动力学行为是其应用和设计的基础。本文主要就其两种动力学行为进行了研究和探讨,其一
网络时代的来临横扫了社会的各个层面和群体,面对求知欲、求新欲及网络环境中成长起来的新一代“网生”,如何借用不断更迭换代的网络媒介运用在高职学生管理中,是一个新的的值得
网络和信息技术的发展以及受众心理的衍变,带来了电视业新一轮的传播方式的变革。"互动"成为电视的关键词。"互动"观念的提出,为传统电视媒体在媒介竞争环境中寻求到了生存发展的
我国高速铁路的总里程已超过2.2万公里,且同时位于大陆最活跃的地震区中。通过对比高速铁路规划网和国内地震带分布可知,高速铁路不可避免地会通过地震多发区。无砟轨道板在
在化工、冶金、动力、建筑、医药、生物、食品、航天及大气科学等领域,存在大量粒子态物质。典型的含粒子介质包括:含炭黑及飞灰的火焰,催化反应器内反应物,射流及固体火箭尾
我国从2013年8月1日起在全国范围将交通运输业纳入“营改增”的范围,从2012年1月1日上海试点到全国推广开来,经历了近两年的时间。”营改增”之后,整个交通运输行业受到了巨大的
论文在总结山西省旱灾特点及规律的基础上,重点分析了旱灾与粮食产量的相关关系,并结合其他影响产量因素建立山西省粮食生产函数。研究结果表明,旱灾对山西省粮食产量的负面