基于Spark平台的K-means聚类算法改进及并行化实现

来源 :互联网天地 | 被引量 : 0次 | 上传用户：edercito

【摘要】

：

针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现

【作者】

：

吴哲夫张彤肖鹰

【机构】

：

浙江工业大学信息工程学院;

【出处】

：

互联网天地

【发表日期】

：

2016年01期

【关键词】

：

K-means 聚类 Spark 并行化

【基金项目】

：

浙江省自然科学基金(No.LY13F010011);浙江省科技厅重大专项(No.2014NM002)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。

其他文献

维权行动

14．中消协推出《防晒类护肤品消费指引》对当前防晒类护肤品市场良莠不齐、概念频出、让消赞者眼花缭乱的现状，中消船携手中国香料香精化妆品工业协会7月11日发布了《防硒类护

期刊

维权行动妇女儿童权益宣传活动省公安厅河南省办公室组织

全球镍资源供需研究

近年来中国经济增长对全球镍资源的供需产生了较大影响,本文详细分析了全球镍资源供需状况的同时,也对中国市场镍资源的供需关系及未来走势进行了分析预测。未来几年镍的需求

期刊

镍镍铁需求供给分析

龈瓣缝合类型对下颌阻生智齿拔除术后生活质量的影响

目的评价下颌阻生智齿拔除术后不同牙龈瓣关闭缝合方式对患者术后生活质量的影响。方法采用随机、自身对照的临床试验设计,选取就诊于天津医科大学口腔医院外科门诊要求拔除

期刊

牙龈缝合技术磨牙第三牙阻生拔牙生活质量龈瓣

企业兴衰的本质是文化问题

<正>近年来,随着世界政治经济的风云变幻,国内外企业正持续经受着环境剧变所带来的严峻考验。面对堪称惨淡的经营,不少企业家陷入无奈和迷惘之中,有的甚至怨天尤人。窃以为,

期刊

企业家精神利益相关者价值判断移动通讯经营理念

佛教传入广西时间考

佛教传入广西时间考陈波江地处中国南方边唾的广西，古称“南蛮”之地。过去，由于对早期佛教文化的实物资料认识较少．因而一般都认为佛教传人广西的时间较晚。其实，关于佛教何时传

期刊

佛教传入两广地区广西壮族自治区博物馆广西地区

马自达M6轿车后悬架分装设备激光检测系统

阐述了马自达M6轿车后悬架分装过程中, 对其车轮的外倾和前束进行激光检测的原理及应用。

期刊

后悬架激光检测技术PLC

超细搅拌磨机的研究现状和发展

搅拌磨机是一种高效率的超细粉磨设备。本文系统介绍了国内外超细搅拌磨矿设备的发展状况及其在工业矿物中的应用情况,并进行了综合评述和发展展望。

期刊

搅拌磨机超细磨亚微米粉体

基于公共服务提供能力建设的基层政府公信力问题研究

政府公信力是影响一国政治发展和社会稳定的关键因素。在当前建设服务型政府的行政改革大势下,公共服务供给已然成为基层政府与公众间的联接点。基层政府提供公共产品和公共

学位

公共服务提供能力基层政府公信力公信力弱化路径选择

静电复印墨粉颗粒形貌对性能的影响

采用SEM观察墨粉颗粒的形状与分布情况,分析墨粉的颗粒形貌与墨粉印刷质量的关系。结果表明:墨粉颗粒的形状接近球形、粒径分布窄且接近10um,则墨粉的印刷质量好。其主要原因

期刊

墨粉颗粒形貌带电球形化性能

基于分子影像的纳米探针对于早期乳腺癌及其淋巴结转移的诊疗研究

研究背景:乳腺癌已成为全球女性发病率最高的肿瘤,其持续走高的死亡率严重地威胁着女性的身心健康。因此,对乳腺癌,尤其是早期乳腺癌、隐匿性淋巴结转移的乳腺癌的有效诊断和

学位

分子影像早期乳腺癌淋巴结转移多模态诊疗一体化

基于Spark平台的K-means聚类算法改进及并行化实现

与本文相关的学术论文