基于Mahout的聚类算法的研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:zkw_2209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,随之产生的数据量也急速膨胀,互联网数据挖掘领域中的传统聚类算法无法满足海量数据处理的要求。特别对于文档聚类而言,传统的聚类算法主要处理人工数据集,并且文档数据倾向于小型,以适应单机处理。但是,在文档聚类领域,这并不现实,因为文档数据集往往巨大而且充满噪音。云计算是一种新的专注于大数据和分布式并行处理的平台,近年来发展迅速,在商业上取得了初步成功,也引起了学术界的注意。在云计算时代,可以利用云计算平台重新设计和实现传统的聚类算法,降低时间和空间复杂度,高效地解决大数据的存储和计算所遇到的瓶颈问题。Apache Hadoop是关于云计算的开源项目,允许在廉价的大量集群上通过简单的MapReduce计算模型来分布式处理大数据集。从过去依赖昂贵的硬件转而利用廉价节点间的分布存储和并行计算来获取高可用性。此外,Hadoop能够侦测和解决节点失效的问题,从而能够提供在集群上个别节点失效的情况下的高可用性服务。其中MapReduce计算模型在底层依赖于HDFS(Hadoop Distributed File System)文件系统,此分布式文件系统支持集群节点的本地存储和计算。Apache Mahout是一个数据挖掘和机器学习领域的开源的算法库,这些算法都是建立在MapReducc编程模型和HDFS文件系统之上实现的。本文以经典聚类算法为例,深入讨论基于Mahout的聚类算法的并行分布式设计和实现。同时改进相关算法,总结聚类算法设计的一般方法和技巧。可以预期Mahout是一个处理大数据的优秀平台,但它的性能并没有被充分的测试。所以本文在讨论聚类算法的并行设计和改进的同时,会通过实验来测试多个并行算法在该平台下的性能及效果,以及初步讨论Mahout/Hadoop是否是一个优秀的大数据处理平台。
其他文献
十六大提出到2020年实现全面建成小康社会的目标,届时要求全国人均收入达到3000美元,就全国而言,按照目前的收入增长态势,达到这个目标并不困难。但是如果农村收入按20世纪90年代
目的评价疝环充填式无张力疝修补术应用于老年腹股沟疝的临床效果。方法同顾性总结近5年收治的127例老年腹股沟疝患者的临床资料。结果均采用美国Bard公司生产的plugmesh定型
20世纪60年代初期,美国总统肯尼迪曾公开宣称:"谁控制了太空,谁就控制了地球。"这是人类历史上"制天权"思想的首次正式亮相。1983年,美国总统里根依据格雷厄姆的《高边疆:新
目的检测E-cadherin在肺癌组织、癌旁组织及正常肺组织中的表达,并探讨其在肺癌发生发展中的作用。方法采用免疫组化SP法对22例肺癌组织、相应的癌旁组织和9例肺部良性病变旁
目的探讨腹腔镜术后联合GnRH-a治疗子宫内膜异位症伴不孕的疗效及与r-AFS分期的相关性分析。方法106例子宫内膜异位症伴不孕患者经腹腔镜卵巢子宫内膜异位囊肿剔除、异位灶烧
既往,由于缺乏对肠道微生物的了解,人们一度认为,它们只是一群喜欢吃粪便的细菌而已,似乎与肠道中的寄生虫没什么两样。但实际上,这些小到只有通过显微镜才能看得到的生物,对
煤矿在我国的国民经济发展中有着重要的作用,它的发展关系到我国煤炭资源的正常供应。而加强煤矿机电设备的安全管理,是确保煤矿的安全生产以及设备的正常运转的重要手段,有利于
文章以某电网公司为例,从技术和管理的角度,对其配网故障复电工作现状进行分析,借鉴国内外电力企业快速复电先进经验,针对配网故障快速复电存在的问题提出了相应的解决措施,并通过
本文对体育传统学校乒乓球项目的开展模式进行了分析、概括和总结,对训练、教学、管理等问题进行了剖析,旨在为体育传统学校乒乓球的整体模式提供全面的经验,为发展体育传统
龙游红木小镇坐落于浙江省衢州市龙游县湖镇镇,钱塘江上游秀丽的衢江之畔,是由年年红家具(国际)集团投资开发创建的浙江省首批特色小镇,2018年被认定为浙江省科普教育基地,总