论文部分内容阅读
【摘 要】Hadoop是一个开源的云计算搭建框架,利用它可快速搭建自己的云平台,并且可以在大量廉价的pc机组成的集群上运行应用程序。本文主要论述了Hadoop的发展,以及在完全分布式中靜态ip、jdk、Hadoop、ssh等的安装配置需要注意的问题。
【关键词】Hadoop 云平台 完全分布式
一、Hadoop的简介
Hadoop是Apache 软件基金会旗下的一个开源分布式计算平台,目前得到了大量的应用。很多企业以及研究机构使用Hadoop框架作为研究或者构建自己的云计算服务平台。它基于Java语言开发,Hadoop也包括许多子项目,如:HBase、Pig、Hive、HDFS和MapReduce等,其中最核心组成项目是HDFS和MapReduce。MapReduce和HDFS都是采用主从式架构,通过构建主节点来屏蔽从节点复杂的底层结构。同时,该主从式架构简化了MapReduce使用的文件目录的映射。Hadoop作为一个开源的软件平台使得编写和运行用于处理海量数据的应用程序更加容易。Hadoop有三种安装模式:单机模式,伪分布式,完全分布式。单机模式主要用于开发调试MapReduce程序的应用逻辑。伪分布式是在单机上模拟Hadoop分布式,在单机上配置,数据节点和名字节点均是一个机器。完全分布式模式就是真正多台机器来搭建分布式集群。利用Hadoop解决大数据问题时,我们是用全分布模式来操作Hadoop。
Hadoop的集群是基于master/slaver模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。
二、作为一个开源分布式系统平台,Hadoop具有以下一些优势:
(1)可扩展性:Hadoop有可靠的存储和处理大数据的能力,扩展非常简单,不需要修改已有的结构。
(2)经济性:Hadoop将数据分布到由廉价Pc机组成的集群中进行处理,这些集群可以由成千上万个节点组成,且对集群硬件没有特殊的要求。
(3)有效性:通过数据分发,Hadoop可以在集群节点上并行处理数据,这使得数据处理过程大大提速,为高效处理海量信息打下基础。
(4)可靠性:Hadoop自动维护一份数据的多个拷贝并自动将失败的计算任务重新部署。
三、在搭建分布式云平台的过程中需注意的问题
Hadoop要求集群上每个节点的用户账户名和密码相同,在实际条件下进行Hadoop分布式安装时,还出现了很多未知的问题。
(1)配置静态IP。采用虚拟机里安装同一版本的ubuntu操作系统,虚拟机设置的是桥接方式,配置好静态IP,这样虚拟机是主机所在以太网的一部分,它被当成主机所在以太网上的一个独立物理机来看待,可以像主机一样访问以太网中的所有共享资源和网络连接。并且各虚拟机之间可以互相ping通,主机与虚拟机之间,以及各虚拟机之间都可以互访。
(2)配置hosts和hostname文件。在所有的节点上,终端执行命令:vi /etc/hostname,修改hostname文件,将节点的主机名改成不同的名字,便于区分。继续修改hosts文件,使得彼此之间都能把主机名解析为ip,即实现主机名与ip的绑定。
(3)配置ssh实现免密码登录。ssh是英文Secure Shell的简写形式。通过使用ssh,可以把所有传输的数据进行加密,还有一个额外的好处就是传输的数据是经过压缩的,所以能加快传输的速度。
首先要保证ubuntu是连着互联网的。然后在终端执行命令安装ssh服务:
sudo apt-get update
sudo apt-get install openssh-server
ssh服务安装好之后,还要在各个节点执行命令ssh-keygen –t rsa –P ‘’生成密钥对,然后通过追加以及修改文件的权限把公钥传送到其他的节点,最后要实现各个节点之间都可以互相无密码登陆。
(4)保证集群所有的电脑都安装了jdk。Hadoop是基于Java开发的,集群的所有电脑都要安装jdk,并配置环境变量。首先到官网上下载jdk的压缩包并解压,配置环境变量后,最后可通过在终端输入Java –version来验证jdk是否安装成功。
(5)关闭宿主机与ubuntu的防火墙。
(6)Hadoop的安装与配置。
首先在master节点上下载并解压Hadoop安装包,进入Hadoop的conf文件下,找到hadoop-env.sh,指定JDK 的安装位置。然后配置Hadoop的核心文件hafs-site.xml,core-site.xml和mapred-xite.xml,最后还要修改master和slaves文件。完成之后通过命令向各节点复制Hadoop。scp -r hadoop所在的目录 节点的ip:/要放置的位置,在master节点上格式化namenode,bin/hadoop namenode –format,启动Hadoop:bin/start-all.sh,最后查看是否所有进程启动,输入命令jps,验证Hadoop是否成功启动,打开浏览器,查看集群状态分别输入网址http://master:50070,查看即可。
关闭Hadoop:bin/stop-all.sh
在搭建平台的过程中遇到了很多的问题,通过查阅资料和询问同学得到了解决,在这期间不仅学习了很多的命令以及知识,同时也进一步了解了Hadoop的工作机制。
参考文献:
[1]张岩.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报2013(1).
[2]王宏宇.Hadoop平台在云计算中的应用[J].软件,2011(12).
[3]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010(2).
【关键词】Hadoop 云平台 完全分布式
一、Hadoop的简介
Hadoop是Apache 软件基金会旗下的一个开源分布式计算平台,目前得到了大量的应用。很多企业以及研究机构使用Hadoop框架作为研究或者构建自己的云计算服务平台。它基于Java语言开发,Hadoop也包括许多子项目,如:HBase、Pig、Hive、HDFS和MapReduce等,其中最核心组成项目是HDFS和MapReduce。MapReduce和HDFS都是采用主从式架构,通过构建主节点来屏蔽从节点复杂的底层结构。同时,该主从式架构简化了MapReduce使用的文件目录的映射。Hadoop作为一个开源的软件平台使得编写和运行用于处理海量数据的应用程序更加容易。Hadoop有三种安装模式:单机模式,伪分布式,完全分布式。单机模式主要用于开发调试MapReduce程序的应用逻辑。伪分布式是在单机上模拟Hadoop分布式,在单机上配置,数据节点和名字节点均是一个机器。完全分布式模式就是真正多台机器来搭建分布式集群。利用Hadoop解决大数据问题时,我们是用全分布模式来操作Hadoop。
Hadoop的集群是基于master/slaver模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。
二、作为一个开源分布式系统平台,Hadoop具有以下一些优势:
(1)可扩展性:Hadoop有可靠的存储和处理大数据的能力,扩展非常简单,不需要修改已有的结构。
(2)经济性:Hadoop将数据分布到由廉价Pc机组成的集群中进行处理,这些集群可以由成千上万个节点组成,且对集群硬件没有特殊的要求。
(3)有效性:通过数据分发,Hadoop可以在集群节点上并行处理数据,这使得数据处理过程大大提速,为高效处理海量信息打下基础。
(4)可靠性:Hadoop自动维护一份数据的多个拷贝并自动将失败的计算任务重新部署。
三、在搭建分布式云平台的过程中需注意的问题
Hadoop要求集群上每个节点的用户账户名和密码相同,在实际条件下进行Hadoop分布式安装时,还出现了很多未知的问题。
(1)配置静态IP。采用虚拟机里安装同一版本的ubuntu操作系统,虚拟机设置的是桥接方式,配置好静态IP,这样虚拟机是主机所在以太网的一部分,它被当成主机所在以太网上的一个独立物理机来看待,可以像主机一样访问以太网中的所有共享资源和网络连接。并且各虚拟机之间可以互相ping通,主机与虚拟机之间,以及各虚拟机之间都可以互访。
(2)配置hosts和hostname文件。在所有的节点上,终端执行命令:vi /etc/hostname,修改hostname文件,将节点的主机名改成不同的名字,便于区分。继续修改hosts文件,使得彼此之间都能把主机名解析为ip,即实现主机名与ip的绑定。
(3)配置ssh实现免密码登录。ssh是英文Secure Shell的简写形式。通过使用ssh,可以把所有传输的数据进行加密,还有一个额外的好处就是传输的数据是经过压缩的,所以能加快传输的速度。
首先要保证ubuntu是连着互联网的。然后在终端执行命令安装ssh服务:
sudo apt-get update
sudo apt-get install openssh-server
ssh服务安装好之后,还要在各个节点执行命令ssh-keygen –t rsa –P ‘’生成密钥对,然后通过追加以及修改文件的权限把公钥传送到其他的节点,最后要实现各个节点之间都可以互相无密码登陆。
(4)保证集群所有的电脑都安装了jdk。Hadoop是基于Java开发的,集群的所有电脑都要安装jdk,并配置环境变量。首先到官网上下载jdk的压缩包并解压,配置环境变量后,最后可通过在终端输入Java –version来验证jdk是否安装成功。
(5)关闭宿主机与ubuntu的防火墙。
(6)Hadoop的安装与配置。
首先在master节点上下载并解压Hadoop安装包,进入Hadoop的conf文件下,找到hadoop-env.sh,指定JDK 的安装位置。然后配置Hadoop的核心文件hafs-site.xml,core-site.xml和mapred-xite.xml,最后还要修改master和slaves文件。完成之后通过命令向各节点复制Hadoop。scp -r hadoop所在的目录 节点的ip:/要放置的位置,在master节点上格式化namenode,bin/hadoop namenode –format,启动Hadoop:bin/start-all.sh,最后查看是否所有进程启动,输入命令jps,验证Hadoop是否成功启动,打开浏览器,查看集群状态分别输入网址http://master:50070,查看即可。
关闭Hadoop:bin/stop-all.sh
在搭建平台的过程中遇到了很多的问题,通过查阅资料和询问同学得到了解决,在这期间不仅学习了很多的命令以及知识,同时也进一步了解了Hadoop的工作机制。
参考文献:
[1]张岩.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报2013(1).
[2]王宏宇.Hadoop平台在云计算中的应用[J].软件,2011(12).
[3]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010(2).