基于Hbase的并行聚类算法研究及应用

被引量 : 2次 | 上传用户:weiw2436
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据有多样、动态变化、异构、海量等特点。如何对海量数据实现有效存储以及从中快速提取有效价值,是现代企业在运维过程中不得不面对的问题之一,而聚类方式无疑是挖掘数据价值的重要有效手段之一。然而,随着数据量的不断扩大,传统的聚类方式存在着聚类效率不高、聚类效果差等缺点。本文首先深入研究了大数据分布式计算的各项技术和相关的开源项目框架,选择了依托开源社区的MapReduce编程思想、基于HBase的Hadoop平台,作为本文应用的分布式计算平台。其次,采用了经典的,适应面较为广泛的K-means聚类算法,并从经度和纬度这两个数据维度,实现了移动定位的聚类应用;从图书类别的22数据维度中,从专业,性别,年级(本科、硕士,博士)三个不同维度,实现了图书聚类的服务。最终,针对这两个应用的运行结果,从两个方面进行了分析。一是是聚类时间方面。得出了并行聚类的时间与单机相比,大大减少。另外,聚类时间与集群机器数目之间也存在着边际效益的问题,并不是机器数目越多,其聚类效果(时间和成本)就是最优的;二是聚类准确度方面,单机与集群的准确率并没有很大差异,体现了聚类算法在基于HBase的并行MapReduce框架成功运行的有效性。最后,对进一步完善框架方面提出提出了几点展望。主要是要动态扩展集群的规模、完善框架应用的广泛性和进行一些安全隐私方面的保护。
其他文献
本文首先介绍了经营业绩考核的定义、作用及制定经营业绩考核方案的基本原则,重点剖析作者所在公司经营业绩考核方案的内容,提出如何制定完善的公司经营业绩考核办法。
自改革开放以来,中国大型体育赛事进入了高速发展阶段。迄今为止,中国除未举办世界第一大体育赛事---世界杯足球赛以外,其它所有的世界综合型大型体育赛事和世界性单项型体育
人力资源会计的产生由来已久,但是它的发展并不顺畅,到目前为止,只有人力资源成本会计理论比较成熟并被广泛使用,但它已远远不能反映人力资源的真实价值。本文分析了人力资源
目的:了解常州市基本公共卫生服务现状,为完善农村公共卫生服务体系和保障机制提供科学依据。方法:通过座谈,利用相关统计报表和现场观察等方法,收集农村基本公共卫生服务组
城市安全生产关系到城市人口的正常生活甚至生命健康,应急预案是确保城市安全生产事故发生后能够快速有效展开救援的必要准备。传统的应急预案往往是文本型描述,对应急场景的
猪用乳头式饮水器水流速率、安装高度及数量与猪的饮水量和生产性能关联,也关系到猪场的粪污排放量。本文综述了猪用乳头式饮水器的水流速率对猪饮水量、饮水行为以及生产性
总结12例截肢术后残端皮肤感染坏死患者行植皮术联合封闭式负压引流技术的护理对策和效果。术前做好心理护理,术中积极配合术者操作,密切观察患者围术期的生命体征变化,做好
面对着全球IT行业智能化浪潮的席卷,传统的电子领域和移动互联网领域正在快速的步入一种全新的智能化时代。伴随着手机、平板电脑等终端设备被大量的智能化后,电视的智能化正
激光传输特性的研究可以为光电探测和通信系统的性能提供依据。采用后向散射式能见度测量仪测量后向散射回波能量,经过计算得出激光在大气中传播的消光系数。对不同能见度和天
随着建设部逐渐取消毛坯房政策的逐步实施,以及现代生活节奏的不断加快,广大消费者没有太多的业余时间进行装修跟迸,对成品房有着迫切的需求,对于有实力的开发商及信誉度、知