基于Hadoop和Hama平台的并行算法研究

被引量 : 0次 | 上传用户:chuanqi2009444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着Internet的不断发展,互联网中的数据呈现爆炸性的增长。如何对这些数据进行存储和处理成为新的挑战。处理大数据一般是使用性能较高的服务器或者是服务器集群。这一方案存在价格昂贵,扩展性差等缺点。因此越来越多的研究人员把目光投向并行计算和云计算。云计算对大数据的处理和挖掘有着天然的优势。本文正是以此为出发点,旨在对基于Hadoop和Hama云计算平台如何实现算法并行化进行研究。本文首先介绍了Hadoop和Hama云计算平台,MapReduce和Bsp编程模式的关键技术。之后基于现有的实验资源搭建Hadoop和Hama云计算环境用于并行算法的实现与测试。本文重点是如何使用Hadoop和Hama云计算平台实现一些算法的并行化。主要包括基于Hadoop平台实现相关数据挖掘算法和图论算法的并行化,基于Hadoop平台矩阵乘法的并行化,基于Hama平台图论算法的并行化。许多基于MapReduce实现的并行算法都是迭代算法,如文章中介绍的K-means聚类算法,单源最短路径算法等。本文创新性地对这一类算法进行总结和归纳,得出了这一类算法的一般编程步骤,并对相关的数据存储方式的性能进行分析。基于Bsp编程模式文章中主要介绍和实现了三个算法:计算π值,求无向图的连通分量,单源最短路径算法。Hadoop和Hama都有其自身的适用环境,本文分别对基于Hadoop平台和Hama平台实现的无向图连通分量算法进行理论分析和比较,最后通过实验对两者的性能进行对比,得出最后的结论。
其他文献
房地产行业是国民经济的支柱性产业,也是同众多产业有密切关联性的-个行业。从1998年我国实行住房制度改革以来,房地产行业得到了快速发展,但其发展历程并非一帆风顺,经历过
继2005年股权分置改革之后,一系列旨在规范我国上市公司股权激励的法规政策陆续出台,截至2008年底实施股权激励所需的政策环境已相对完善。在此背景下,2009年以来上市公司对
财务报告是承载会计信息的综合性文件,也是向投资者传递企业整体经营状况的有效途径。然而,一些企业为了追求短期效益,利用伪造凭证、虚构交易、调节盈余来制造良好经营的假
2008年对于电信行业是重大转折的一年,在这一年中发生了电信行业的重大变革:新的移动、新的电信和新的联通公司三家公司占据了电信行业的市场。电信行业的特有服务——呼叫中
改革开放30年来,中国酒店业规模的快速增长,吸引了来自全球的目光,但规模的增长并未改善我国酒店业在世界酒店产业分工格局中的弱势地位。分析其原因,中国酒店业的粗放式增长
本研究主要采用一种新型PVA作保护胶体来制备耐水聚醋酸乙烯酯乳液胶黏剂。聚合工艺采用半连续法乳液聚合,不使用乳化剂,采用高效的酒石酸*双氧水氧化还原引发体系。本文首先
目的:观察孟鲁司特钠治疗小儿肺炎支原体感染后气道高反应的效果。方法:以2015年1月至2016年6月儿科收治的肺炎支原体感染84例患者作为研究对象,采用随机数字表法分为对照组
人口老龄化、金融市场的全球化、国家间区位竞争的加剧等等因素的变化对传统福利国家制度提出了前所未有的挑战。在人口上,受到代际契约的挑战,从20世纪70年代伊始,几乎所有
文章就影响高考数学试题难度中最基本的情景因素、技能水平因素、知识含量因素、模块数量因素等作出了分析和探讨,从中得到一点关于高考试题难度的启示或建议,仅供学识们参考
随着科学技术的发展,计算机应用已经融入了我们的日常生活中,同样也深深地融入了我们的教学生活中。现在全国中小学校都提倡“无纸化办公”,无纸化办公顾名思义就是不用纸张办公