当前位置：首页 > article >正文

Hadoop集群运维管理

article 2025/2/21 3:57:38

Hadoop集群运维管理

一、Hadoop 集群进程管理
- 1.1 NameNode 守护进程管理
- 1.2 DataNode 守护进程管理
- 1.3 ResourceManager 守护进程管理
- 1.4 NodeManager 守护进程管理
二、Hadoop 集群运维技巧
- 2.1 查看日志
- 2.2 清理临时文件
- 2.3 定期执行负载均衡
- 2.4 文件系统检查
- 2.5 元数据备份
三、Hadoop 集群动态扩缩容
- 3.1 使用背景
- 3.2 原 Hadoop 集群配置
- 3.2.1 配置 include 和 exclude 文件路径
- - 3.2.2 添加 include 和 exclude文件
  - 3.2.3 同步修改配置文件
- 3.3 Hadoop 集群启动
- - 3.1.1 启动 Zookeeper
  - 3.1.2 启动 HDFS 集群
  - 3.1.3 启动 YARN 集群
- 3.4 Hadoop 集群动态扩容
- - 3.4.1 克隆一台 Centos 7 服务器，并配置集成环境
  - 3.4.2 修改 include 文件并同步
  - 3.4.3 刷新 NameNode
  - 3.4.4 刷新 resourceManager
  - 3.4.5 修改配置文件 slaves
  - 3.4.6 启动新增节点进程
  - 3.4.6 检查新增节点
  - 3.4.7 启动负载均衡
- 3.5 Hadoop 集群动态收缩
- - 3.5.1 修改 exclude 文件
  - 3.5.2 刷新 NameNode
  - 3.5.3 刷新 resourceManager
  - 3.5.4 开始解除节点
  - 3.5.4 停止退役节点进程
  - 3.5.5 修改include文件
  - 3.5.6 刷新NameNode和ResourceManager
  - 3.5.7 修改slaves文件
  - 3.5.8 启动负载均衡

文本使用工具脚本 deploy.sh 和 runRemoteCmd.sh ，可以到《ZooKeeper 集群的详细部署》的 4.1 章节查看如何使用

一、Hadoop 集群进程管理

1.1 NameNode 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode

在这里插入图片描述

从上图可以看出当 hadoop1 停用 namenode 后，hadoop2 的 namenode 节点由 standby 转换为 active

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode

1.2 DataNode 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

1.3 ResourceManager 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop resourcemanager

在这里插入图片描述

从上图可以看出当 hadoop1 停用 resourcemanager 后，hadoop2 的 resourcemanager 节点由 standby 转换为 active

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start resourcemanager

1.4 NodeManager 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop nodemanager

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start nodemanager

二、Hadoop 集群运维技巧

2.1 查看日志

$ HAD00P HOME/logs/hadoop-hadoop-namenode-hadoop1.log
$ HAD00P H0ME/logs/yarn-hadoop-resourcemanager-hadoop1.log
$ HAD00P H0ME/logs/hadoop-hadoop-datanode-hadoop1.log
$ HAD00P HOME/logs/yarn-hadoop-nodemanager-hadoop1.log

2.2 清理临时文件

HDFS的临时文件路径: ${hadoop.tmp.dir}/mapred/staging 本地临时文件路径:$ {mapred.local.dir}/mapred/local

2.3 定期执行负载均衡

脚本：/usr/local/hadoop/sbin/start-balancer.sh -t 10%
-t:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。

2.4 文件系统检查

命令：/usr/local/hadoop/bin/hdfs fsck /
在这里插入图片描述

2.5 元数据备份

命令：/usr/loacl/hadoop/bin/hdfs ‘dfsadmin’ -fetchImage fsimage.backup
在这里插入图片描述

三、Hadoop 集群动态扩缩容

3.1 使用背景

随着公司业务的增长，数据量越来越大，原有 DataNode,节点的容量已经不能满足数据存储的需求，需要在原有集群基础上动态添加新的数据节点，也就是俗称的动态扩容。如果在 Hadoop 集群运行过程中，某些节点变得反常，例如故障率过高或者性能过低，可能就需要停止这些节点上的 Hadoop 服务，并从 Hadoop 集群中移除，也就是俗称的动态缩容。通常情况下，节点需要同时运行 DataNode 和 NodeManager守护进程，所以两者一般同时新增或者移除。

3.2 原 Hadoop 集群配置

在 Hadoop 集群进行动态扩缩容之前，首先需要修改原有集群的配置文件，具体操作步骤如下所示。
配置之前，先停止 hdfs 集群和 yarn 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-dfs.sh 
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-yarn.sh

3.2.1 配置 include 和 exclude 文件路径

在 NameNode 节点(hadoop1)上，修改 hdfs-sitexml配置文件添加 dfs.hosts 和 dfs.hosts.exclude 属性，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

添加如下内容：

<property>
	<name>dfs.hosts</name>
	<value>/usr/local/hadoop/etc/hadoop/include</value>
</property>
<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

在 ResourceManager 节点(hadoop1)上，修改 yarn-site.xml 配置文件，添加 yarn.resourcemanager.nodes.include-path 和 yarn.resourcemanager.nodes.exclude-path 属性，具体操作如下所示：

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加如下内容：

<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
<property>
	<name>yarn.resourcemanager.nodes.exclude-path</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

3.2.2 添加 include 和 exclude文件

在 NameNode 和 ResourceManager,节点(hadoop1)上，创建 include 文件，并将集群节点的 hostname,信息添加到 include 文件中，具体操作如下所示。

添加 include 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

添加如下内容，不要换行和空格。

hadoop1
hadoop2
hadoop3

添加 exclude 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

暂时不添加内容，大家可以根据实际需要添加排查的服务器

3.2.3 同步修改配置文件

将 hadoop1 节点上中修改的配置文件远程拷贝到集群其他节点，具体操作如下。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ slave
hdfs-site.xml                                                              100% 4207     2.7MB/s   00:00    
hdfs-site.xml                                                              100% 4207     2.2MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/yarn-site.xml /usr/local/hadoop/etc/hadoop/ slave
yarn-site.xml                                                              100% 3401     2.9MB/s   00:00    
yarn-site.xml                                                              100% 3401     2.6MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
include                                                                    100%   24    16.2KB/s   00:00    
include                                                                    100%   24    30.9KB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
exclude                                                                    100%    0     0.0KB/s   00:00    
exclude                                                                    100%    0     0.0KB/s   00:00

在这里插入图片描述

3.3 Hadoop 集群启动

3.1.1 启动 Zookeeper

[root@hadoop1 hadoop]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all

3.1.2 启动 HDFS 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-dfs.sh

3.1.3 启动 YARN 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-yarn.sh

3.4 Hadoop 集群动态扩容

3.4.1 克隆一台 Centos 7 服务器，并配置集成环境

配置内容：修改固定IP、/etc/hostname、/etc/hosts、关闭防火墙、免密、时钟同步，具体可以参考《ZooKeeper 集群的详细部署》

在此处我新增了一台 hadoop4 IP地址：192.168.220.154

完成以上继续配置

3.4.2 修改 include 文件并同步

在 NameNode 和 ResouceMamager节点(hadoop1)上，修改 include 文件，并将新增节点的 hostname,信息添加到 include 文件中，具体操作如下所示。

[root@hadoop1 hadoop]# vim ./etc/hadoop/include

修改为如下内容（不要添加空格和换行）：

hadoop1
hadoop2
hadoop3
hadoop4

在这里插入图片描述
将 hadoop1 的 include 文件同步到其他服务器

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

3.4.3 刷新 NameNode

将一系列审核过的 DataNode 来更新 NameNode 设置，具体操作如下所示：

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

在这里插入图片描述

3.4.4 刷新 resourceManager

将一系列审核过的 NodeManager 来更新 ResourceManger 设置，具体操作如下所示：

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

在这里插入图片描述

3.4.5 修改配置文件 slaves

[root@hadoop1 hadoop]# cat /usr/local/etc/hadoop/slaves

新增 hadoop4 主机名称节点，配置如下：

hadoop1
hadoop2
hadoop3
hadoop4

将 hadoop1 中配置好的 slaves 推送到其他hadoop 节点

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.4.6 启动新增节点进程

在新增的 hadoop4 节点中，使用如下命令启动 DataNode 和 NodeManager 守护进程

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

在这里插入图片描述

3.4.6 检查新增节点

分别通过 HDFS(地址:http://hadoop1:50070/)和 YARN(地址:http:/hadoop1:8088/)的 Web界面，查看新增节点 hadoop4 是否添加成功。如果能检査到新的 DataNode 和 NodeManager,则说明 Hadoop 集群扩容成功了。

在这里插入图片描述

3.4.7 启动负载均衡

当 Hadoop 集群扩容成功之后,HDFS 集群不会自动将数据块从旧的 DataNode 迁移到新的 DataNode,以保持集群数据负载均衡，而是需要用户手动执行脚本来实现负载均衡，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh

3.5 Hadoop 集群动态收缩

从 Hadoop 集群移除节点的操作步骤如下所示：

3.5.1 修改 exclude 文件

在NameNode和ResourceManager节点(hadoop1)上，修改exclude文件，并将需要移除节点的hostname信息添加到exclude文件中，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

输入想要移除的节点，比如我想要把 hadoop4 移除，新增如下内容：

hadoop4

然后将修改后的exclude文件同步集群其他节点(包括新增节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.2 刷新 NameNode

在NameNode(hadoop1)节点上，使用一组新的审核过的DataNode来更新NameNode设置，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

3.5.3 刷新 resourceManager

在ResourceManager(hadoop1)节点上，使用一组新的审核过的NodeManager来更新ResourceManager设置，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.4 开始解除节点

通过Web界面(地址:http://hadoop1:50070/)查看待解除DataNode的管理状态是否已经变为正在解除(Decommission In Progress)，因为此时相关的DataNode正在被解除过程中，这些DataNode会把它们的数据块复制到其他DataNode中。当所有DataNode的状态变为解除完毕(Decommissioned)时，表明所有数据块已经复制完毕，此时会关闭已经解除的节点。

在这里插入图片描述

3.5.4 停止退役节点进程

等待退役节点hadoop4的状态为decommissioned时，说明所有块已经复制成功，然后使用如下命令关闭DataNode和NodeManager进程。

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
no nodemanager to stop

3.5.5 修改include文件

在NameNode和ResourceManager节点(hadoop1)中，从include文件中删除退役节点hadoop4的hostname信息，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

删除 hadoop4，结果如下：

hadoop1
hadoop2
hadoop3

然后将修改后的include文件同步集群其他节点(包括退役节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.6 刷新NameNode和ResourceManager

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.7 修改slaves文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/slaves

删除 hadoop4，结果如下：

hadoop1
hadoop2
hadoop3

然后将修改后的slaves文件同步集群其他节点(包括退役节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

3.5.8 启动负载均衡

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh

查看全文

http://www.kler.cn/a/283302.html

OZON新品藏品，OZON收藏品推荐

LeetCode - 4 寻找两个正序数组的中位数

Pytorch 自动微分注意点讲解

在 MySQL 中使用 `REPLACE` 函数

python实现蚁群算法

Google 插件推荐 50 个

【数据库】两个集群数据实现同步方案

Python配置管理工具库之hydra使用详解

机器学习—线性回归算法（Linear Regression）

图结构与高级数据结构的学习笔记一

语言的数据访问

高性能4G灯杆网关,未来智慧城市的神经中枢

【LeetCode面试150】——54螺旋矩阵

React Hooks 的高级用法

LuaJit分析（八）LuaJit预编译库函数加载过程

【秋招笔试】8.21华为秋招-三语言题解

算法训练营|图论第4天 110.字符串接龙 105.有向图的完全可达性 106.岛屿的周长

网络原理 TCP与UDP协议

本地构建spotbugs，替换gradle的默认仓库地址。

chapter08-面向对象编程——（Object类详解）——day09

Hadoop集群运维管理

一、Hadoop 集群进程管理

1.1 NameNode 守护进程管理

1.2 DataNode 守护进程管理

1.3 ResourceManager 守护进程管理

1.4 NodeManager 守护进程管理

二、Hadoop 集群运维技巧

2.1 查看日志

2.2 清理临时文件

2.3 定期执行负载均衡

2.4 文件系统检查

2.5 元数据备份

三、Hadoop 集群动态扩缩容

3.1 使用背景

3.2 原 Hadoop 集群配置

3.2.1 配置 include 和 exclude 文件路径

3.2.2 添加 include 和 exclude文件

3.2.3 同步修改配置文件

3.3 Hadoop 集群启动

3.1.1 启动 Zookeeper

3.1.2 启动 HDFS 集群

3.1.3 启动 YARN 集群

3.4 Hadoop 集群动态扩容

3.4.1 克隆一台 Centos 7 服务器，并配置集成环境

3.4.2 修改 include 文件并同步

3.4.3 刷新 NameNode

3.4.4 刷新 resourceManager

3.4.5 修改 配置文件 slaves

3.4.6 启动新增节点进程

3.4.6 检查新增节点

3.4.7 启动负载均衡

3.5 Hadoop 集群动态收缩

3.5.1 修改 exclude 文件

3.5.2 刷新 NameNode

3.5.3 刷新 resourceManager

3.5.4 开始解除节点

3.5.4 停止退役节点进程

3.5.5 修改include文件

3.5.6 刷新NameNode和ResourceManager

3.5.7 修改slaves文件

3.5.8 启动负载均衡

相关文章：

3.4.5 修改配置文件 slaves