MapReduce框架下基于抽样的分布式K-Means聚类算法

来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:kobeantoni198774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.
其他文献
广东检验检疫局党组根据国家质检总局布署,就开展“质量和安全年”活动进行了认真研究并要求全系统一定要高度重视,切实统一思想,提高认识,加强领导,精心组织,周密安排,全力推进,务求
考虑每期索赔计数变量之间基于泊松AR(1)相依结构的离散风险模型,利用特征函数的唯一性,得到了其累积索赔总额的概率分布等价形式,并建立了重尾索赔下索赔总额的精细大偏差.
2009年10月1日,新中国成立60周年庆典世人瞩目。在这个如诗如画般的金色秋天里,装饰一新的北京天安门广场正在进行着彩排演练,那些威武雄壮的海、陆、空、武警、民兵方队,一架架
通过将L-模糊弱邻域算子的概念变形到(L,M)-闭包模糊邻域系,给出(L,M)-闭包模糊邻域系和(L,M)-闭包系统的关系,并研究(L,M)-闭包模糊邻域空间与连续映射构成范畴的终结构和初始结构.
作为社会文明不可逾越的阶段,市场经济在中国大地上经历漫长的摸索和艰难曲折的选择之后,终于开始扎根并成长起来,随之带来了一场真正意义的革命。随着改革的深化和经济体制的转
我国儒道的传统思想与西方工业革命时期以人为中心的生态价值观不同,因为中国是一个传统的农业国,在西方高速发展工业文明时期,我国仍然是以农桑为主的农业经济,这时“靠天吃饭”
血管生成在恶性肿瘤的生长、浸润和转移中起着重要的作用。肿瘤内新生的血管通过向肿瘤供应营养和氧气、带走代谢产物和释放一些促肿瘤细胞增殖的生长因子等而促进肿瘤生长。
利用Lyapunov稳定性理论和线性矩阵不等式方法,考虑奇异中立系统的降维H∞滤波问题.首先,给出奇异中立系统存在降维H∞滤波器的一些充分条件,使所得滤波误差系统渐近稳定,且H
由美国加州空气资源委员会(CARB)发起的《降低复合木制品甲醛排放的有毒空气污染物控制措施(ATCM)》于2008年4月18日正式被加州行政法规办公室批准成为加州法规,立即生效。20
期刊