搭建Hadoop高可用集群
掌握了Hadoop集群中的高可用架构后,接下来,我们来手把手教大家搭建一个Hadoop高可用集群,具体步骤如下:
1.部署集群节点
我们规划整个集群由3台虚拟机组成,这3台虚拟机在高可用集群中的部署规划情况如表1所示。
表1 集群节点分布
服务器 | Name Node | Data Node | Resource Manager | Node Manager | Journal Nodes | Zookeeper | ZKFC |
---|---|---|---|---|---|---|---|
node-01 | √ | √ | √ | √ | √ | √ | √ |
node-02 | √ | √ | √ | √ | √ | √ | |
node-03 | √ | √ | √ | √ |
表1所示的三个服务器组成了一个Zookeeper集群。其中,node-01和node-02作为集群的NameNode,需要运行ZKFC来监控NameNode的健康状态。
2.环境准备
首先,搭建普通Hadoop集群。需要注意的是,原有虚拟机系统主机名为hadoop01,建议初学者在搭建Hadoop HA集群时重新安装虚拟机,以此来巩固前面所学知识,并将三台虚拟主机名设置为node-01、node-02和node-03。
3.配置Hadoop高可用集群
(1)修改core-site.xml文件,在该文件中配置HDFS端口,指定Hadoop临时目录和Zookeeper集群地址,具体参数如下:
<configuration>
<!-- 指定hdfs的nameservice为ns1 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/export/servers/hadoop-2.7.4/tmp</value>
</property>
<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>node-01:2181,node-02:2181,node-03:2181</value>
</property>
</configuration>
(2)修改hdfs-site.xml文件,配置两台NameNode端口地址和通信方式,并指定NameNode的元数据上的存放位置,开启NameNode失败自动切换以及配置sshfence(通过ssh远程登录到前一个Active NameNode并将其结束进程),具体参数如下:
<configuration>
<!-- 设置副本个数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- 设置namenode.name目录 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/export/data/hadoop/name</value>
</property>
<!-- 设置namenode.data目录 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/export/data/hadoop/data</value>
</property>
<!-- 开启webHDFS -->
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
<!-- 在NN和DN上开启WebHDFS (REST API)功能,不是必须 -->
</property>
<!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>node-01:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>node-01:50070</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>node-02:9000</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>node-02:50070</value>
</property>
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>
qjournal://node-01:8485;node-02:8485;node-03:8485/ns1
</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/export/data/hadoop/journaldata</value>
</property>
<!-- 开启NameNode失败自动切换 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
</value>
</property>
<!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<!-- 配置sshfence隔离机制超时时间 -->
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
</configuration>
(3)修改mapred-site.xml文件,配置MapReduce计算框架为yarn方式,具体参数如下:
<configuration>
<!-- 指定mapreduce框架为yarn方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(4)修改yarn-site.xml文件,开启ResourceManager高可用,指定ResourceManager的端口名称地址,并配置Zookeeper集群地址,具体参数如下:
<configuration>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<!-- 开启RM高可用 -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!-- 指定RM的cluster id -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yrc</value>
</property>
<!-- 指定RM的名字 -->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 分别指定RM的地址 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>node-01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>node-02</value>
</property>
<!-- 指定zk集群地址 -->
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>node-01:2181,node-02:2181,node-03:2181</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(5)修改slaves,配置集群主机名称,具体代码如下:
node-01
node-02
node-03
(6)修改hadoop-env.sh,配置JDK环境变量,具体代码如下:
export JAVA_HOME=/export/servers/jdk1.8.0_161
将配置好的文件分发传送给node-02,node-03机器中,读者可以根据需求自定义配置/etc/profile的环境变量,分发后需要重新加载该文件。
4.启动Hadoop高可用集群
(1)启动集群各个节点的Zookeeper服务,命令如下:
$ cd /export/servers/zookeeper-3.4.10/bin
$ ./zkServer.sh start
(2)启动集群各个节点监控NameNode的管理日志的JournalNode,命令如下:
$ hadoop-daemon.sh start journalnode
(3)在node-01节点格式化NameNode,并将格式化后的目录拷贝到node-02中,具体命令如下:
$ hadoop namenode –format
$ scp -r /export/data/hadoop node-02:/export/data/
(4)在node-01节点上格式化ZKFC,命令如下:
$ hdfs zkfc -formatZK
(5)在node-01节点上启动HDFS,命令如下:
$ start-dfs.sh
(6)在node-01节点上启动YARN,命令如下:
$ start-yarn.sh