基于Hadoop平台的Map-Reduce应用研究

被引量 : 0次 | 上传用户:qq439272757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和3G的迅猛发展,其数据具有海量、多样、异构、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。如何高效地从这些海量数据中挖掘有效信息已成为一个重要的研究内容。在分析常见的分布式系统模型以及并行计算等相关技术的基础上,结合MapReduce编程模型和Hadoop平台的集群技术,提出了基于Hadoop集群平台的MapReduce编程模型的并行编程框架,该编程框架的特点是借助开源技术和当前流行的分布式技术满足算法并行执行的需求,用该框架改进Canopy-Kmeans算法,使Canopy-Kmeans算法执行效率得到提高。同时该框架适用于大量其它算法。Canopy-Kmeans算法对传统Kmeans算法的改进体现在两个方面:利用Canopy算法选出初始的K个聚类中心有利于消除孤立点,提高聚类的准确性;再次就是将数据进行Canopy有覆盖划分,在计算点离哪个聚类中心最近时不必计算其到所有聚类中心的距离,只要计算和它在同一个Canopy下的聚类中心的最短距离,大大提高效率。Hadoop平台具有成本低,易维护,可扩展,开发应用程序简单等优点。同时,该平台无需并发处理或者分布式系统编程的经验,只要部署好Hadoop API相应的配置就可以处理超大分布式系统的数据资源。应用MapReduce编程模型很容易编写分布式程序,简化了分布式编程。最后将该算法应用于网站的数据处理以及学生成绩统计,实践证明应用MapReduc模型的高效性。
其他文献
农业科技企业在人力资源、产品和服务等方面具有独特特点。实施人力资源会计核算体系来衡量农业科技企业人力资本符合其要求。从核算内容和核算账户2个方面构建农业科技企业
信息技术特别是网络技术的迅猛发展,为思想政治教育的改革创新带来了机遇与挑战,如何发挥好信息技术的特点,将传统教育内容用更加形象、生动、具体的方式展现给师生,成为了摆
以星座短腹海鞘(Aplidium constellatum)为研究对象,采用正交试验法对其脂溶性成分的提取工艺进行优化。以提取率和类胡萝卜素含量为指标评定工艺的优劣,并通过气相色谱对提
本课题主要研究了虚拟现实系统的开发及其应用。首先,文章分析了一个完整的虚拟现实系统的构成,将虚拟现实系统抽象归纳为实体几何模块,场景模块,功能模块三部分。并研究了计
计算机的发展带来了药物设计理论和方法的迅猛发展,计算机辅助药物设计(CADD)的发展源于上个世纪,是一门涵盖化学、生物学、计算机科学、信息学和数学等领域的综合性学科。随
美国以其强大的经济实力和政治影响力在二战结束后的30年中为国际体系的稳定提供了一系列的制度安排,其中布雷顿森林体系为战后各国的经济复苏提供了良好的国际货币环境。布
基于CHIPS数据,本文考察了社会资本对中国农村家庭非农经营参与决策的影响,以及社会资本的此种作用将如何随着市场化程度的提高而改变。通过社会资本相关文献的梳理可以看出,
随着嵌入式产品在安全相关领域的应用的发展,人们逐渐认识到嵌入式软件可靠性和安全性的重要性。嵌入式软件可靠性和安全性的研究是一门涉及软件工程、软件测试、可靠性工程
近年来,吉林省的经济得到了快速增长,人民生活稳步提高。探寻经济增长的影响因素成为学术界研究的热点问题。选用时间序列数据,利用多元线性回归的方程,选取固定资产投资、消
巴代文化是湘西花垣及其周边一带苗族人民的集成。它包括三大仪式、两大体系、八大板块、三十七种类的庞大内容,囊括了苗族文化的原生基因与苗族文化特质的全部内容,具有多样