Hadoop框架中分布式K-means聚类算法的改进

来源 :第9届全国计算机支持的协同工作学术会议(CCSCW-2014) | 被引量 : 0次 | 上传用户:fengraul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  经典的分布式K-means 聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式K-means 聚类算法。该算法通过划分数据集,计算属性最密集的k 个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop 分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。
其他文献
本文通过对荣华二采区10
期刊
在摩擦学领域中,传统的油性剂和极压抗磨添加剂由于自身的缺陷其应用受到很大限制。油性剂的承载能力低,极压抗磨剂多为含硫、磷、氯的有机物,污染环境,在国外已被限制使用。
  为了研究局域环境下关于降雨量的气象数据挖掘问题,进一步提高降雨预测准确率,提出了一个基于支持向量机的多组合器协同分析方法,构建了一个多组合器协同分析模型,通过用气象
木质素是自然界第二丰富的生物可再生资源,工业木质素是制浆造纸的副产物,目前回收利用率不高,大部分随废水排放,既污染环境,又浪费资源。工业木质素的资源化利用具有重大的经济、
  XMPP 是移动应用中普遍使用的即时消息推送协议,但未考虑节能问题。该论文提出一种基于云迁移的XMPP 协议节能改进方法(E2-CXHA),利用云迁移方法将持久连接的通信迁移至
新型萃取剂的开发是萃取化学发展的重要内容。近年来国内外在研究酰胺类萃取剂方面取得了较大进展。在酰胺基础上发展起来的酰胺荚醚(AmidoPodand)类萃取剂对Ln(Ⅲ)和An(Ⅲ,Ⅳ
  使用便携设备测量心率已经变得流行起来。当前的测量心率的方法有傅里叶变换、峰值检测、小波分析等几种。然而,在一些情况下,这些方法并不合适或高效。比如,小波分析在测量
会议
  无线视频传感器网络(Wireless Camera Sensor Networks,简称WCSN)由嵌入摄像感知装置的无线传感器节点组成。节点可以获得图像视频等更加直观的客观物理量,通过参数标定
会议
  为了应对爆炸式增长的车辆流量数据和用户日益增长的应用程序需求给蜂窝网络运营商(如3G/LTE)造成的巨大的流量负载和网络拥塞等问题,当前已有很多工作提出将数据通过高容
会议
我国转基因抗虫棉主要的外源抗虫基因——Bt基因对鳞翅目害虫如棉铃虫、红铃虫有着良好的抗性。但是随着转基因抗虫棉的大面积推广和多年的田间应用,科学家们发现由于杀虫剂用量下降,近些年来导致蚜虫、绿盲椿象、棉粉虱等非主要害虫的为害加重。另外,棉花黄萎病是棉花生产中最重要的病害,严重影响棉花的产量。黄萎病致病机理复杂,研究进展缓慢,育种效率较低,目前尚缺乏高抗品种。在棉花色素腺体中有棉酚等次生代谢物的沉积