Hadoop集群运维管理
Hadoop集群运维管理
- 一、Hadoop 集群进程管理
- 1.1 NameNode 守护进程管理
- 1.2 DataNode 守护进程管理
- 1.3 ResourceManager 守护进程管理
- 1.4 NodeManager 守护进程管理
- 二、Hadoop 集群运维技巧
- 2.1 查看日志
- 2.2 清理临时文件
- 2.3 定期执行负载均衡
- 2.4 文件系统检查
- 2.5 元数据备份
- 三、Hadoop 集群动态扩缩容
- 3.1 使用背景
- 3.2 原 Hadoop 集群配置
- 3.2.1 配置 include 和 exclude 文件路径
- 3.2.2 添加 include 和 exclude文件
- 3.2.3 同步修改配置文件
- 3.3 Hadoop 集群启动
- 3.1.1 启动 Zookeeper
- 3.1.2 启动 HDFS 集群
- 3.1.3 启动 YARN 集群
- 3.4 Hadoop 集群动态扩容
- 3.4.1 克隆一台 Centos 7 服务器,并配置集成环境
- 3.4.2 修改 include 文件并同步
- 3.4.3 刷新 NameNode
- 3.4.4 刷新 resourceManager
- 3.4.5 修改 配置文件 slaves
- 3.4.6 启动新增节点进程
- 3.4.6 检查新增节点
- 3.4.7 启动负载均衡
- 3.5 Hadoop 集群动态收缩
- 3.5.1 修改 exclude 文件
- 3.5.2 刷新 NameNode
- 3.5.3 刷新 resourceManager
- 3.5.4 开始解除节点
- 3.5.4 停止退役节点进程
- 3.5.5 修改include文件
- 3.5.6 刷新NameNode和ResourceManager
- 3.5.7 修改slaves文件
- 3.5.8 启动负载均衡
文本使用工具脚本 deploy.sh 和 runRemoteCmd.sh ,可以到 《ZooKeeper 集群的详细部署》 的 4.1 章节查看如何使用
一、Hadoop 集群进程管理
1.1 NameNode 守护进程管理
- 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode
从上图可以看出当 hadoop1 停用 namenode 后,hadoop2 的 namenode 节点由 standby 转换为 active
- 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode
1.2 DataNode 守护进程管理
- 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
- 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
1.3 ResourceManager 守护进程管理
- 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop resourcemanager
从上图可以看出当 hadoop1 停用 resourcemanager 后,hadoop2 的 resourcemanager 节点由 standby 转换为 active
- 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start resourcemanager
1.4 NodeManager 守护进程管理
- 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop nodemanager
- 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start nodemanager
二、Hadoop 集群运维技巧
2.1 查看日志
$ HAD00P HOME/logs/hadoop-hadoop-namenode-hadoop1.log
$ HAD00P H0ME/logs/yarn-hadoop-resourcemanager-hadoop1.log
$ HAD00P H0ME/logs/hadoop-hadoop-datanode-hadoop1.log
$ HAD00P HOME/logs/yarn-hadoop-nodemanager-hadoop1.log
2.2 清理临时文件
HDFS的临时文件路径: h a d o o p . t m p . d i r / m a p r e d / s t a g i n g 本地临时文件路径 : {hadoop.tmp.dir}/mapred/staging 本地临时文件路径: hadoop.tmp.dir/mapred/staging本地临时文件路径:{mapred.local.dir}/mapred/local
2.3 定期执行负载均衡
脚本:/usr/local/hadoop/sbin/start-balancer.sh -t 10%
-t:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。
2.4 文件系统检查
命令:/usr/local/hadoop/bin/hdfs fsck /
2.5 元数据备份
命令:/usr/loacl/hadoop/bin/hdfs ‘dfsadmin’ -fetchImage fsimage.backup
三、Hadoop 集群动态扩缩容
3.1 使用背景
随着公司业务的增长,数据量越来越大,原有 DataNode,节点的容量已经不能满足数据存储的需求,需要在原有集群基础上动态添加新的数据节点,也就是俗称的动态扩容。如果在 Hadoop 集群运行过程中,某些节点变得反常,例如故障率过高或者性能过低,可能就需要停止这些节点上的 Hadoop 服务,并从 Hadoop 集群中移除,也就是俗称的动态缩容。通常情况下,节点需要同时运行 DataNode 和 NodeManager守护进程,所以两者一般同时新增或者移除。
3.2 原 Hadoop 集群配置
在 Hadoop 集群进行动态扩缩容之前,首先需要修改原有集群的配置文件,具体操作步骤如下所示。
配置之前,先停止 hdfs 集群 和 yarn 集群
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-dfs.sh
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-yarn.sh
3.2.1 配置 include 和 exclude 文件路径
在 NameNode 节点(hadoop1)上,修改 hdfs-sitexml配置文件添加 dfs.hosts 和 dfs.hosts.exclude 属性,具体操作如下所示。
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
添加如下内容:
<property>
<name>dfs.hosts</name>
<value>/usr/local/hadoop/etc/hadoop/include</value>
</property>
<property>
<name>dfs.hosts.exclude</name>
<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
在 ResourceManager 节点(hadoop1)上,修改 yarn-site.xml 配置文件,添加 yarn.resourcemanager.nodes.include-path 和 yarn.resourcemanager.nodes.exclude-path 属性,具体操作如下所示:
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml
添加如下内容:
<property>
<name>dfs.hosts.exclude</name>
<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
<property>
<name>yarn.resourcemanager.nodes.exclude-path</name>
<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
3.2.2 添加 include 和 exclude文件
在 NameNode 和 ResourceManager,节点(hadoop1)上,创建 include 文件,并将集群节点的 hostname,信息添加到 include 文件中,具体操作如下所示。
添加 include 文件
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include
添加如下内容,不要换行和空格。
hadoop1
hadoop2
hadoop3
添加 exclude 文件
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude
暂时不添加内容,大家可以根据实际需要添加排查的服务器
3.2.3 同步修改配置文件
将 hadoop1 节点上中修改的配置文件远程拷贝到集群其他节点,具体操作如下。
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ slave
hdfs-site.xml 100% 4207 2.7MB/s 00:00
hdfs-site.xml 100% 4207 2.2MB/s 00:00
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/yarn-site.xml /usr/local/hadoop/etc/hadoop/ slave
yarn-site.xml 100% 3401 2.9MB/s 00:00
yarn-site.xml 100% 3401 2.6MB/s 00:00
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
include 100% 24 16.2KB/s 00:00
include 100% 24 30.9KB/s 00:00
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
exclude 100% 0 0.0KB/s 00:00
exclude 100% 0 0.0KB/s 00:00
3.3 Hadoop 集群启动
3.1.1 启动 Zookeeper
[root@hadoop1 hadoop]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all
3.1.2 启动 HDFS 集群
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-dfs.sh
3.1.3 启动 YARN 集群
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-yarn.sh
3.4 Hadoop 集群动态扩容
3.4.1 克隆一台 Centos 7 服务器,并配置集成环境
配置内容:修改固定IP、/etc/hostname、/etc/hosts、关闭防火墙、免密、时钟同步,具体可以参考 《ZooKeeper 集群的详细部署》
在此处我新增了一台 hadoop4 IP地址:192.168.220.154
完成以上继续配置
3.4.2 修改 include 文件并同步
在 NameNode 和 ResouceMamager节点(hadoop1)上,修改 include 文件,并将新增节点的 hostname,信息添加到 include 文件中,具体操作如下所示。
[root@hadoop1 hadoop]# vim ./etc/hadoop/include
修改为如下内容(不要添加空格和换行):
hadoop1
hadoop2
hadoop3
hadoop4
将 hadoop1 的 include 文件同步到其他服务器
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
3.4.3 刷新 NameNode
将一系列审核过的 DataNode 来更新 NameNode 设置,具体操作如下所示:
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
3.4.4 刷新 resourceManager
将一系列审核过的 NodeManager 来更新 ResourceManger 设置,具体操作如下所示:
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes
3.4.5 修改 配置文件 slaves
[root@hadoop1 hadoop]# cat /usr/local/etc/hadoop/slaves
新增 hadoop4 主机名称节点,配置如下:
hadoop1
hadoop2
hadoop3
hadoop4
将 hadoop1 中配置好的 slaves 推送到其他hadoop 节点
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave
3.4.6 启动新增节点进程
在新增的 hadoop4 节点中,使用如下命令启动 DataNode 和 NodeManager 守护进程
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager
3.4.6 检查新增节点
分别通过 HDFS(地址:http://hadoop1:50070/)和 YARN(地址:http:/hadoop1:8088/)的 Web界面,查看新增节点 hadoop4 是否添加成功。如果能检査到新的 DataNode 和 NodeManager,则说明 Hadoop 集群扩容成功了。
3.4.7 启动负载均衡
当 Hadoop 集群扩容成功之后,HDFS 集群不会自动将数据块从旧的 DataNode 迁移到新的 DataNode,以保持集群数据负载均衡,而是需要用户手动执行脚本来实现负载均衡,具体操作如下所示。
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh
3.5 Hadoop 集群动态收缩
从 Hadoop 集群移除节点的操作步骤如下所示:
3.5.1 修改 exclude 文件
在NameNode和ResourceManager节点(hadoop1)上,修改exclude文件,并将需要移除节点的hostname信息添加到exclude文件中,具体操作如下所示。
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude
输入想要移除的节点,比如我想要把 hadoop4 移除,新增如下内容:
hadoop4
然后将修改后的exclude文件同步集群其他节点(包括新增节点),这里以hadoop2节点为例,具体操作如下所示。
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
3.5.2 刷新 NameNode
在NameNode(hadoop1)节点上,使用一组新的审核过的DataNode来更新NameNode设置,具体操作如下所示。
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
3.5.3 刷新 resourceManager
在ResourceManager(hadoop1)节点上,使用一组新的审核过的NodeManager来更新ResourceManager设置,具体操作如下所示。
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes
3.5.4 开始解除节点
通过Web界面(地址:http://hadoop1:50070/)查看待解除DataNode的管理状态是否已经变为正在解除(Decommission In Progress),因为此时相关的DataNode正在被解除过程中,这些DataNode会把它们的数据块复制到其他DataNode中。当所有DataNode的状态变为解除完毕(Decommissioned)时,表明所有数据块已经复制完毕,此时会关闭已经解除的节点。
3.5.4 停止退役节点进程
等待退役节点hadoop4的状态为decommissioned时,说明所有块已经复制成功,然后使用如下命令关闭DataNode和NodeManager进程。
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
no nodemanager to stop
3.5.5 修改include文件
在NameNode和ResourceManager节点(hadoop1)中,从include文件中删除退役节点hadoop4的hostname信息,具体操作如下所示。
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include
删除 hadoop4,结果如下:
hadoop1
hadoop2
hadoop3
然后将修改后的include文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
3.5.6 刷新NameNode和ResourceManager
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes
3.5.7 修改slaves文件
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/slaves
删除 hadoop4,结果如下:
hadoop1
hadoop2
hadoop3
然后将修改后的slaves文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave
3.5.8 启动负载均衡
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh