基于MapReduce的K-means聚类算法的优化

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户:gxmvsgxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷.提出了一种基于MapReduce的改进K-means聚类算法.该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场
其他文献
随着车辆电子信息技术的飞速发展,车辆电子电气系统在整车的可靠性中起着至关重要的作用;对电子电气系统的测试传统的做法往往是在整个系统完成之后利用整车环境进行的,这种
针对传统的三角履带诱导轮结构一直存在动力性能不足、轴承系统负荷大、动力动态响应差的问题;提出并设计了一种新型三角履带诱导轮瞬态响应模拟方法;根据有限单元程序对数据分
雪糕棒质量缺陷包括几何尺寸偏差和表面色差两大类,目前的质量检测手段是人工目测,检测结果难以得到保障;针对这一现状设计出一套雪糕棒质量在线视觉检测系统样机,由雪糕棒传送系统、光源、镜头、摄像机、计算机即图像处理单元、分选系统组成,由4台摄像机分别实现雪糕棒正、反面成像、两端侧面成像;采用基本计数原理解决了多点检测结果融合,检测结果到分选点的数据记忆,利用多线程技术解决了多台摄像机同步、提高系统运行速
针对连铸二冷区生产环境复杂且存在着大量水雾干扰的情况,建立了连铸水量优化模型并提出了一种混合的自适应粒子群算法来求解连铸二冷水优化问题;依据冶金过程中的工艺要求建
根据背景和装甲目标不同的毫米波辐射机理,采用不同的统计方法得到了背景和装甲目标的不同统计特性;针对背景的不均匀性造成的背景辐射特性的非单一性,提出了采用假设检验的
在许多检测仪表的设计和应用中,由于被测信号幅度变化范围大、频带宽,通常采用设置量程变换开关的方式对被测信号进行满量程放大以保证测量的精度,使得硬件结构复杂;为了实现
电路模拟LVDT传感器在航空发动机测试中有着广泛的应用,相对于机械传感器其降低了使用难度和维护费用;传统模拟器由于电路中变压器的影响,仿真精度较差导致系统测试准确性降低,研制高精度LVDT模拟器存在着较大的工程需求;文章从LVDT传感器工作原理出发,基于乘法型DAC芯片实现了电路合成模拟LVDT传感器;同时在模拟器中设计自动校准单元,利用离线拟合并存储到FPGA中的模板曲线对不同通道进行在线校准,
针对行人运动的随机性导致运动状态模型适应性差和人在行走过程中可能发生短时全部或局部遮挡导致行人跟踪算法精度较低的问题,提出基于时间序列模型的粒子滤波行人跟踪算法;建立了行人运动时间序列模型;给出了基于对视频序列初始帧的检测,确定行人的位置、宽高等作为跟踪先验信息的方法;由先验信息计算加权颜色直方图构建初始粒子群分布,并利用时间序列运动模型预测粒子在下一时刻的状态分布,并更新粒子权值;根据有效粒子的
轴承故障振动信号具有非平稳、非线性特征,且可视为多个调幅-调频分量的叠加,单分量的包络蕴含了轴承的故障特征.局部特征尺度分解可将振动信号准确分解为多个内禀尺度分量之
对机场场面航空器滑行冲突检测进行了研究,分析了基于多摄像机的航空器滑行冲突检测流程,基于图像识别和目标跟踪技术,提取航空器的滑行轨迹,提出了基于DCPA(distance of closest point of approach)和TCPA(time of closet point of approach)的滑行冲突检测模型,开发了基于多摄像机的航空器滑行冲突检测原型系统并应用于西南某通航机场;实