基于Hive的分布式K_means算法设计与研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:ch101732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据的处理效率问题,论文主要应用娃adoop技术,探讨了分布式技术应用于大数据挖掘的编程模式。论文以k_means算法作为研究对象;采用Hadoop的一个数据仓库工具--HIVE来实现该算法的并行化,并在结构化的CUI数据集上进行了实验,实验结果表明该方法具有优良的加速比和运行效率,适用于结构化海量数据的分析。
其他文献
我国计算机技术发展相当迅速,社会上对于计算机软件的开发技术也越来越关注。其中分层技术在软件开发中是一项运用的较为广泛的开发技术。在文中对分层技术的优势进行了简要的
针对复杂场景中分割人体不准确的问题,提出了一种在图论优化框架中联合RGB-D信息和骨架信息的人体分割算法.首先,采用边缘引导的滤波算法修复低质量的深度图,得到高质量的深度图;然后通过一种聚类算法对RGB-D数据进行聚类得到超像素;最后在图模型中将超像素看作节点,并结合相应的人体骨架来提高区分人体和背景相似颜色区域的能力,设计能量函数各组成项,最小化能量函数得到全局最佳的融合结果.为验证算法的有效性
学习计算机实验室是学校的重要硬件之一,主要是用于计算机实验教学,为理论教学提供重要的辅助作用。当前学校计算机实验室的使用频率比较高,但是学生在使用的过程中往往会出
从形态构成学的发展,介绍了形态构成学的起源和它在我国的发展情况,探讨了形态构成学在我国的高职院校教学中存在的问题,并就高职院校提高形态构成学的教学方法进行了研究。
随着全球化进程的加快,人才的竞争成为提高国家核心竞争力的关键因素。民办高校技能型拔尖人才应注重通识教育与个性化培养相结合、技术技能与创新创意相结合、理论知识与实习
数据安全是计算机安全问题的核心。为保障数据信息安全,各国采用了不同的数据销毁技术,如数据删除、数据清除、物理销毁,等等。剩余信息保护系统可以完全清除系统中的残余信息,确
随着计算机技术的快速发展,大中专院校中越来越多的专业开设了C语言与C++语言的有关课程,由于它们是一门实践性很强的学科,而理论性学习不能真正的让学生掌握其有关知识,不能真正反
刘勰在《文心雕龙》之《征圣》篇中提出了十几个理论命题。从构成形式的角度来看,这些命题主要有三种类型:一是单句式命题,二是双句式命题,三是多句式命题;从思想内涵的角度来
西方政治哲学的论证重心经历了一种从政治的道德目的到政治的道德基础的转换。古代的政治伦理学通常把政治的道德基础看作一种自然因素,故而对此并不着力论证,却着重于赋予政
在大学英语实际教学中,应该将课前演讲作为一项重要内容加以强化,要在具体的英语教学中开设课前演讲环节,提升对课前演讲的重视,在优化课前演讲选题的同时,丰富课前演讲的文化因素