基于MapReduce的K-means聚类算法的优化

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户：gxmvsgxm

【摘要】

：

针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷.提出了一种基于MapReduc

【作者】

：

孙玉强李媛媛陆勇

【机构】

：

常州大学信息科学与工程学院

【出处】

：

计算机测量与控制

【发表日期】

：

2016年7期

【关键词】

：

K均值算法抽样 Canopy算法最大最小距离法 K-means clustering algorithm sampling Canopy algorithm

【基金项目】

：

国家自然科学基金项目（11271057,51176016）,江苏省自然科学基金项目（BK2009535）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷.提出了一种基于MapReduce的改进K-means聚类算法.该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场

其他文献

车辆电子电气系统测试方法研究

随着车辆电子信息技术的飞速发展,车辆电子电气系统在整车的可靠性中起着至关重要的作用;对电子电气系统的测试传统的做法往往是在整个系统完成之后利用整车环境进行的,这种

期刊

快速原型硬件在环自动化测试接口测试Rapid prototype HIL Automatic testing Interface testing

新型三角履带诱导轮瞬态响应模拟方法与分析

针对传统的三角履带诱导轮结构一直存在动力性能不足、轴承系统负荷大、动力动态响应差的问题；提出并设计了一种新型三角履带诱导轮瞬态响应模拟方法；根据有限单元程序对数据分

期刊

瞬态响应三角履带诱导轮轴承系统transient response triangular track inducer bearing system

雪糕棒质量在线视觉检测系统设计与实现

雪糕棒质量缺陷包括几何尺寸偏差和表面色差两大类,目前的质量检测手段是人工目测,检测结果难以得到保障;针对这一现状设计出一套雪糕棒质量在线视觉检测系统样机,由雪糕棒传送系统、光源、镜头、摄像机、计算机即图像处理单元、分选系统组成,由4台摄像机分别实现雪糕棒正、反面成像、两端侧面成像;采用基本计数原理解决了多点检测结果融合,检测结果到分选点的数据记忆,利用多线程技术解决了多台摄像机同步、提高系统运行速

期刊

雪糕棒质量在线视觉检测多线程lce cream stick quality online visual inspection multithreadi

二冷配水优化建模与混合自适应粒子群算法求解

针对连铸二冷区生产环境复杂且存在着大量水雾干扰的情况,建立了连铸水量优化模型并提出了一种混合的自适应粒子群算法来求解连铸二冷水优化问题;依据冶金过程中的工艺要求建

期刊

粒子群算法自适应禁忌搜索连铸particle swarm optimization adaptive tabu search continuous

背景和装甲目标毫米波被动探测统计特性研究

根据背景和装甲目标不同的毫米波辐射机理,采用不同的统计方法得到了背景和装甲目标的不同统计特性;针对背景的不均匀性造成的背景辐射特性的非单一性,提出了采用假设检验的

期刊

毫米波被动探测背景统计分布装甲目标信号复杂度passive millimeter wave detection background statis

基于FPGA的智能放大器的研究与实现

在许多检测仪表的设计和应用中,由于被测信号幅度变化范围大、频带宽,通常采用设置量程变换开关的方式对被测信号进行满量程放大以保证测量的精度,使得硬件结构复杂;为了实现

期刊

智能放大器FPGAAD603intelligent amplifier FPGA AD603

基于幅频自校准的高精度LVDT模拟器设计

电路模拟LVDT传感器在航空发动机测试中有着广泛的应用,相对于机械传感器其降低了使用难度和维护费用;传统模拟器由于电路中变压器的影响,仿真精度较差导致系统测试准确性降低,研制高精度LVDT模拟器存在着较大的工程需求;文章从LVDT传感器工作原理出发,基于乘法型DAC芯片实现了电路合成模拟LVDT传感器;同时在模拟器中设计自动校准单元,利用离线拟合并存储到FPGA中的模板曲线对不同通道进行在线校准,

期刊

LVDT模拟器校准幅频响应LVDT simulatorcalibrationamplitude-frequency response

基于时间序列模型的粒子滤波行人跟踪算法研究

针对行人运动的随机性导致运动状态模型适应性差和人在行走过程中可能发生短时全部或局部遮挡导致行人跟踪算法精度较低的问题,提出基于时间序列模型的粒子滤波行人跟踪算法;建立了行人运动时间序列模型;给出了基于对视频序列初始帧的检测,确定行人的位置、宽高等作为跟踪先验信息的方法;由先验信息计算加权颜色直方图构建初始粒子群分布,并利用时间序列运动模型预测粒子在下一时刻的状态分布,并更新粒子权值;根据有效粒子的

期刊

时间序列粒子滤波行人跟踪颜色直方图ARMAtime series particle filter pedestrian tracking col

基于多摄像机的航空器滑行冲突检测研究

对机场场面航空器滑行冲突检测进行了研究,分析了基于多摄像机的航空器滑行冲突检测流程,基于图像识别和目标跟踪技术,提取航空器的滑行轨迹,提出了基于DCPA(distance of closest point of approach)和TCPA(time of closet point of approach)的滑行冲突检测模型,开发了基于多摄像机的航空器滑行冲突检测原型系统并应用于西南某通航机场;实

期刊

多摄像机滑行冲突检测图像识别目标跟踪DCPATCPAmulti camerataxi collision detectingimage reco

基于MapReduce的K-means聚类算法的优化

其他学术论文