Hadoop分布式计算平台架构分析与应用开发

被引量 : 0次 | 上传用户:zhongnan1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是由Apache软件基金会推出的一个用于实现大规模分布式计算的软件平台,它提供了一个分布式文件系统和并行执行环境,让用户便捷地在分布式环境下处理海量数据。现在该平台已被广泛应用于云计算领域。本文先从Hadoop平台的分布式文件系统,分布式计算模型,以及分布式环境下的任务控制三方面分析、论述该平台架构的基本工作原理以及计算过程,从整体上阐明Hadoop架构中主要成员的工作原理与实现方式。然后详细设计并实现了Hadoop平台下的验证性应用程序-基于Hadoop平台的针对超链接URL的网络爬虫。该应用程序可运行于Hadoop平台上,以分布式处理的形式对网页上的超链接地址进行指定深度的收集。该程序是对Hadoop平台下编程以及环境配置的一次有益实践。
其他文献
目的:研究海马Racl活性与场景恐惧记忆保持及遗忘的关系,探讨PTSD病理性恐惧记忆不能遗忘的分子机制,为PTSD患者的治疗提供新的理论指导。方法:实验一:确定一个能诱导出相似学习
随着我国能源需求呈刚性增长,受国内资源保障能力和环境容量制约,我国经济社会发展面临的资源环境瓶颈约束更加突出,钢铁企业余压、余热利用是“十二五”规划推出的重要举措之一
目的:探讨异基因造血干细胞移植术后肺部感染的临床特征、病因及危险因素,提高临床医师对该疾病的认识及诊治水平。方法:回顾分析2010年至2012年收入我院的37例异基因造血干细胞
江西省从2012年冬全面启动了森林城乡,绿色通道μ的建设,全省各设区市将进行城市绿道规划,构建城市绿道网络。南昌市内水网密集,滨河绿道将成为南昌城市绿道系统的重要组成部分,为
公共政策执行问题在学术界受到越来越多学者重视,在公共管理研究领域有着十分重要的研究地位和理论意义;同时,由于中国正处于快速发展的时期,公共管理对象也愈加地复杂,因此,研究公
随着电力需求的不断增加,电力信息网络迅猛发展,人们对信息管理系统能够提供更高层次分析的需求日益剧增。数据仓库技术的应用对信息管理系统决策支持方面功能的不足进行了弥补
背景:随着我国老龄化不断加剧,严重骨质疏松的病人也越来越多,全髋关节置换术(total hip arthroplasty,THA)可以改善严重骨质疏松患者的生活质量,让他们恢复正常生活,已经成为一种疗
九、三大语法学派对词类的分类单词的语法区分叫做词类分类。词类分类是语法体系的中心,它一般是按单词的职能(或作用)、形态、意义等来进行区分的。三大语法学派由于各自对
企业再造理论是20世纪后20年最重要的管理理论创新之一。1993年,哈默教授等著的《再造企业--工商管理革命宣言》中认为,企业再造是“为了在衡量绩效的关键指标上取得显著改善,从
“民为国本,食为民天。”食品安全关系到每个人的生活质量、财产安全、健康状况,与每个人都息息相关。食品是人类赖以生存和发展的基础,是国家安定的基本保障。食品安全问题