当前位置: 首页 > article >正文

Hadoop集群运维管理

Hadoop集群运维管理

  • 一、Hadoop 集群进程管理
    • 1.1 NameNode 守护进程管理
    • 1.2 DataNode 守护进程管理
    • 1.3 ResourceManager 守护进程管理
    • 1.4 NodeManager 守护进程管理
  • 二、Hadoop 集群运维技巧
    • 2.1 查看日志
    • 2.2 清理临时文件
    • 2.3 定期执行负载均衡
    • 2.4 文件系统检查
    • 2.5 元数据备份
  • 三、Hadoop 集群动态扩缩容
    • 3.1 使用背景
    • 3.2 原 Hadoop 集群配置
    • 3.2.1 配置 include 和 exclude 文件路径
      • 3.2.2 添加 include 和 exclude文件
      • 3.2.3 同步修改配置文件
    • 3.3 Hadoop 集群启动
      • 3.1.1 启动 Zookeeper
      • 3.1.2 启动 HDFS 集群
      • 3.1.3 启动 YARN 集群
    • 3.4 Hadoop 集群动态扩容
      • 3.4.1 克隆一台 Centos 7 服务器,并配置集成环境
      • 3.4.2 修改 include 文件并同步
      • 3.4.3 刷新 NameNode
      • 3.4.4 刷新 resourceManager
      • 3.4.5 修改 配置文件 slaves
      • 3.4.6 启动新增节点进程
      • 3.4.6 检查新增节点
      • 3.4.7 启动负载均衡
    • 3.5 Hadoop 集群动态收缩
      • 3.5.1 修改 exclude 文件
      • 3.5.2 刷新 NameNode
      • 3.5.3 刷新 resourceManager
      • 3.5.4 开始解除节点
      • 3.5.4 停止退役节点进程
      • 3.5.5 修改include文件
      • 3.5.6 刷新NameNode和ResourceManager
      • 3.5.7 修改slaves文件
      • 3.5.8 启动负载均衡

文本使用工具脚本 deploy.sh 和 runRemoteCmd.sh ,可以到 《ZooKeeper 集群的详细部署》 的 4.1 章节查看如何使用

一、Hadoop 集群进程管理

1.1 NameNode 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode

在这里插入图片描述
在这里插入图片描述
从上图可以看出当 hadoop1 停用 namenode 后,hadoop2 的 namenode 节点由 standby 转换为 active

  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode

1.2 DataNode 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

1.3 ResourceManager 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop resourcemanager

在这里插入图片描述
在这里插入图片描述
从上图可以看出当 hadoop1 停用 resourcemanager 后,hadoop2 的 resourcemanager 节点由 standby 转换为 active

  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start resourcemanager

1.4 NodeManager 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop nodemanager
  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start nodemanager

二、Hadoop 集群运维技巧

2.1 查看日志

$ HAD00P HOME/logs/hadoop-hadoop-namenode-hadoop1.log
$ HAD00P H0ME/logs/yarn-hadoop-resourcemanager-hadoop1.log
$ HAD00P H0ME/logs/hadoop-hadoop-datanode-hadoop1.log
$ HAD00P HOME/logs/yarn-hadoop-nodemanager-hadoop1.log

2.2 清理临时文件

HDFS的临时文件路径: h a d o o p . t m p . d i r / m a p r e d / s t a g i n g 本地临时文件路径 : {hadoop.tmp.dir}/mapred/staging 本地临时文件路径: hadoop.tmp.dir/mapred/staging本地临时文件路径:{mapred.local.dir}/mapred/local

2.3 定期执行负载均衡

脚本:/usr/local/hadoop/sbin/start-balancer.sh -t 10%
-t:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。

2.4 文件系统检查

命令:/usr/local/hadoop/bin/hdfs fsck /
在这里插入图片描述

2.5 元数据备份

命令:/usr/loacl/hadoop/bin/hdfs ‘dfsadmin’ -fetchImage fsimage.backup
在这里插入图片描述

三、Hadoop 集群动态扩缩容

3.1 使用背景

随着公司业务的增长,数据量越来越大,原有 DataNode,节点的容量已经不能满足数据存储的需求,需要在原有集群基础上动态添加新的数据节点,也就是俗称的动态扩容。如果在 Hadoop 集群运行过程中,某些节点变得反常,例如故障率过高或者性能过低,可能就需要停止这些节点上的 Hadoop 服务,并从 Hadoop 集群中移除,也就是俗称的动态缩容。通常情况下,节点需要同时运行 DataNode 和 NodeManager守护进程,所以两者一般同时新增或者移除。

3.2 原 Hadoop 集群配置

在 Hadoop 集群进行动态扩缩容之前,首先需要修改原有集群的配置文件,具体操作步骤如下所示。
配置之前,先停止 hdfs 集群 和 yarn 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-dfs.sh 
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-yarn.sh 

3.2.1 配置 include 和 exclude 文件路径

在 NameNode 节点(hadoop1)上,修改 hdfs-sitexml配置文件添加 dfs.hosts 和 dfs.hosts.exclude 属性,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml 

添加如下内容:

<property>
	<name>dfs.hosts</name>
	<value>/usr/local/hadoop/etc/hadoop/include</value>
</property>
<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

在 ResourceManager 节点(hadoop1)上,修改 yarn-site.xml 配置文件,添加 yarn.resourcemanager.nodes.include-path 和 yarn.resourcemanager.nodes.exclude-path 属性,具体操作如下所示:

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加如下内容:

<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
<property>
	<name>yarn.resourcemanager.nodes.exclude-path</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

3.2.2 添加 include 和 exclude文件

在 NameNode 和 ResourceManager,节点(hadoop1)上,创建 include 文件,并将集群节点的 hostname,信息添加到 include 文件中,具体操作如下所示。

添加 include 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

添加如下内容,不要换行和空格。

hadoop1
hadoop2
hadoop3

添加 exclude 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

暂时不添加内容,大家可以根据实际需要添加排查的服务器

3.2.3 同步修改配置文件

将 hadoop1 节点上中修改的配置文件远程拷贝到集群其他节点,具体操作如下。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ slave
hdfs-site.xml                                                              100% 4207     2.7MB/s   00:00    
hdfs-site.xml                                                              100% 4207     2.2MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/yarn-site.xml /usr/local/hadoop/etc/hadoop/ slave
yarn-site.xml                                                              100% 3401     2.9MB/s   00:00    
yarn-site.xml                                                              100% 3401     2.6MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
include                                                                    100%   24    16.2KB/s   00:00    
include                                                                    100%   24    30.9KB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
exclude                                                                    100%    0     0.0KB/s   00:00    
exclude                                                                    100%    0     0.0KB/s   00:00 

在这里插入图片描述

3.3 Hadoop 集群启动

3.1.1 启动 Zookeeper

[root@hadoop1 hadoop]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all

3.1.2 启动 HDFS 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-dfs.sh 

3.1.3 启动 YARN 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-yarn.sh 

3.4 Hadoop 集群动态扩容

3.4.1 克隆一台 Centos 7 服务器,并配置集成环境

配置内容:修改固定IP、/etc/hostname、/etc/hosts、关闭防火墙、免密、时钟同步,具体可以参考 《ZooKeeper 集群的详细部署》

在此处我新增了一台 hadoop4 IP地址:192.168.220.154

完成以上继续配置

3.4.2 修改 include 文件并同步

在 NameNode 和 ResouceMamager节点(hadoop1)上,修改 include 文件,并将新增节点的 hostname,信息添加到 include 文件中,具体操作如下所示。

[root@hadoop1 hadoop]# vim ./etc/hadoop/include 

修改为如下内容(不要添加空格和换行):

hadoop1
hadoop2
hadoop3
hadoop4

在这里插入图片描述
将 hadoop1 的 include 文件同步到其他服务器

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

3.4.3 刷新 NameNode

将一系列审核过的 DataNode 来更新 NameNode 设置,具体操作如下所示:

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

在这里插入图片描述

3.4.4 刷新 resourceManager

将一系列审核过的 NodeManager 来更新 ResourceManger 设置,具体操作如下所示:

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

在这里插入图片描述

3.4.5 修改 配置文件 slaves

[root@hadoop1 hadoop]# cat /usr/local/etc/hadoop/slaves 

新增 hadoop4 主机名称节点,配置如下:

hadoop1
hadoop2
hadoop3
hadoop4

将 hadoop1 中配置好的 slaves 推送到其他hadoop 节点

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.4.6 启动新增节点进程

在新增的 hadoop4 节点中,使用如下命令启动 DataNode 和 NodeManager 守护进程

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

在这里插入图片描述

3.4.6 检查新增节点

分别通过 HDFS(地址:http://hadoop1:50070/)和 YARN(地址:http:/hadoop1:8088/)的 Web界面,查看新增节点 hadoop4 是否添加成功。如果能检査到新的 DataNode 和 NodeManager,则说明 Hadoop 集群扩容成功了。

在这里插入图片描述

3.4.7 启动负载均衡

当 Hadoop 集群扩容成功之后,HDFS 集群不会自动将数据块从旧的 DataNode 迁移到新的 DataNode,以保持集群数据负载均衡,而是需要用户手动执行脚本来实现负载均衡,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh 

3.5 Hadoop 集群动态收缩

从 Hadoop 集群移除节点的操作步骤如下所示:

3.5.1 修改 exclude 文件

在NameNode和ResourceManager节点(hadoop1)上,修改exclude文件,并将需要移除节点的hostname信息添加到exclude文件中,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude 

输入想要移除的节点,比如我想要把 hadoop4 移除,新增如下内容:

hadoop4

然后将修改后的exclude文件同步集群其他节点(包括新增节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.2 刷新 NameNode

在NameNode(hadoop1)节点上,使用一组新的审核过的DataNode来更新NameNode设置,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

3.5.3 刷新 resourceManager

在ResourceManager(hadoop1)节点上,使用一组新的审核过的NodeManager来更新ResourceManager设置,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.4 开始解除节点

通过Web界面(地址:http://hadoop1:50070/)查看待解除DataNode的管理状态是否已经变为正在解除(Decommission In Progress),因为此时相关的DataNode正在被解除过程中,这些DataNode会把它们的数据块复制到其他DataNode中。当所有DataNode的状态变为解除完毕(Decommissioned)时,表明所有数据块已经复制完毕,此时会关闭已经解除的节点。

在这里插入图片描述

3.5.4 停止退役节点进程

等待退役节点hadoop4的状态为decommissioned时,说明所有块已经复制成功,然后使用如下命令关闭DataNode和NodeManager进程。

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
no nodemanager to stop

3.5.5 修改include文件

在NameNode和ResourceManager节点(hadoop1)中,从include文件中删除退役节点hadoop4的hostname信息,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include 

删除 hadoop4,结果如下:

hadoop1
hadoop2
hadoop3

然后将修改后的include文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.6 刷新NameNode和ResourceManager

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.7 修改slaves文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/slaves 

删除 hadoop4,结果如下:

hadoop1
hadoop2
hadoop3

然后将修改后的slaves文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

3.5.8 启动负载均衡

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh 


http://www.kler.cn/news/283302.html

相关文章:

  • OZON新品藏品,OZON收藏品推荐
  • LeetCode - 4 寻找两个正序数组的中位数
  • Pytorch 自动微分注意点讲解
  • 在 MySQL 中使用 `REPLACE` 函数
  • python实现蚁群算法
  • Google 插件推荐 50 个
  • 【数据库】两个集群数据实现同步方案
  • Python配置管理工具库之hydra使用详解
  • 机器学习—线性回归算法(Linear Regression)
  • 图结构与高级数据结构的学习笔记一
  • 语言的数据访问
  • 高性能4G灯杆网关,未来智慧城市的神经中枢
  • 【LeetCode面试150】——54螺旋矩阵
  • React Hooks 的高级用法
  • LuaJit分析(八)LuaJit预编译库函数加载过程
  • 【秋招笔试】8.21华为秋招-三语言题解
  • 算法训练营|图论第4天 110.字符串接龙 105.有向图的完全可达性 106.岛屿的周长
  • 网络原理 TCP与UDP协议
  • 本地构建spotbugs,替换gradle的默认仓库地址。
  • chapter08-面向对象编程——(Object类详解)——day09
  • 【C++ Primer Plus习题】7.5
  • Docker方式部署K8s集群
  • 灵神算法题单——不定长滑动窗口(求最长最大)
  • C#入门(13)if语句
  • HTML简单了解和基础知识记录
  • 《机器学习》 基于GANs构建数字图像生成器 探索深度学习世界
  • 群晖(Docker Compose)配置 frp 服务
  • 移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——8.stackqueuepriority_queue(模拟实现)
  • zset使用lua实现取最高分数中的随机成员
  • 使用notepad++将shell脚本转为UNIX格式方法(主要差别在换行符)