当前位置：首页 > article >正文

从零开始Hadoop集群环境搭建

article 2024/10/4 23:18:08

1. Centos7.5硬件配置

1.1 创建虚拟机

在这里插入图片描述

1.2 虚拟机系统设置

开启虚拟化（Win10一般都是开启的）
在这里插入图片描述
下载Centos7.5镜像
链接：xxxxxxx

然后开启此虚拟机开始安装。
（安装需要一些时间，ctrl+alt呼出鼠标）

e
设置密码，简单点就好

设置一个普通账号

至此安装完毕！！！

2. IP地址和主机名称配置

有三个地方需要配置IP地址：VMware、Win10服务器、hadoop100服务器

配置VMware IP，设置顺序

选择VMnet8，设置的网段避开1就行

（DHCP设置时注意区间）
配置Win10 IP

注意：设置后会影响浏览器访问速度！
如果Windows中没有出现上面的VMnet8，可在VMware中点还原默认配置试试：
配置hadoop100 IP和主机名称
进入虚拟机——打开终端
```
su root
vim /etc/sysconfig/network-scripts/ifcfg-ens33
```
修改主机名称为hadoop100：
```
vim /etc/hostname
```
修改主机名称映射：
```
vim /etc/hosts
```
修改完后reboot重启
重新进入虚拟机，打开终端检查下修改是否成功：

3. 软件配置

下面操作都在Xshell中执行。
配置IP地址映射（可选项）
进入电脑 C:\Windows\System32\drivers\etc路径下，打开hosts文件添加如下内容：

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

3.1 安装 epel-release

注:Extra Packages for Enterprise Limux是为“红帽系”的操作系统提供额外的软件包适用于 RHEL、CentOS和 Scientific Linux。相当于是一个软件仓库，大多数 rpm 包在官方repository 中是找不到的)
注意在root账号下操作

su root
yum install -y epel-release

——自己执行安装命令的时候出现了如下问题：

在这里插入图片描述
排查了一下发现是镜像原因，解决方案：使用阿里云或其他国内镜像源
设置YUM仓库源为阿里云镜像源：

sudo nano /etc/yum.repos.d/CentOS-Base.repo

将内容替换为以下内容：

[base]
name=CentOS-$releasever - Base - mirrors.aliyun.com
baseurl=http://mirrors.aliyun.com/centos/$releasever/os/$basearch/
gpgcheck=1
gpgkey=http://mirrors.aliyun.com/centos/RPM-GPG-KEY-CentOS-7

[updates]
name=CentOS-$releasever - Updates - mirrors.aliyun.com
baseurl=http://mirrors.aliyun.com/centos/$releasever/updates/$basearch/
gpgcheck=1
gpgkey=http://mirrors.aliyun.com/centos/RPM-GPG-KEY-CentOS-7

[extras]
name=CentOS-$releasever - Extras - mirrors.aliyun.com
baseurl=http://mirrors.aliyun.com/centos/$releasever/extras/$basearch/
gpgcheck=1
gpgkey=http://mirrors.aliyun.com/centos/RPM-GPG-KEY-CentOS-7

[centosplus]
name=CentOS-$releasever - Plus - mirrors.aliyun.com
baseurl=http://mirrors.aliyun.com/centos/$releasever/centosplus/$basearch/
gpgcheck=1
enabled=0
gpgkey=http://mirrors.aliyun.com/centos/RPM-GPG-KEY-CentOS-7

保存文件并退出。

关闭防火墙，关闭防火墙开机自启

systemctl stop firewalld
systemctl disable firewalld.service

创建用户并设置密码

useradd xxx
passwd 123456

配置创建的用户具有root权限，方便后期加sudo执行root权限的命令

vim /etc/sudoers

在这里插入图片描述
在 /opt 目录下创建文件夹，并修改所属主和所属组

[root@hadoop100 ~] mkdir /opt/module
[root@hadoop100 ~] mkdir /opt/software

[root@hadoop100 ~] chown xxx:xxx /opt/module
[root@hadoop100 ~] chown xxx:xxx /opt/software

3.2 卸载虚拟机自带的JDK

（注意：如果你的虚拟机是最小化安装则不需要执行这一步）

[root@hadoop100 ~] rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

rpm -qa：查询安装的所有rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e --nodeps：强制卸载软件
重启虚拟机

[root@hadoop100 ~] reboot

3.3 克隆虚拟机

先关闭虚拟机
在这里插入图片描述

同理克隆得到 hadoop103、hadoop104

3.4 修改克隆虚拟机的IP

分别root账号进入hadoop102、hadoop103、hadoop104，打开终端

vim /etc/sysconfig/network-scripts/ifcfg-ens33

分别修改IPADDR=192.168.10.102、IPADDR=192.168.10.103、IPADDR=192.168.10.104

vim /etc/hostname

分别修改名称为 hadoop102、hadoop103、hadoop104

reboot

3.5 JDK安装

进入到之前创建的software目录，通过

[root@hadoop102 opt] cd software/

通过Xftp或其他工具将JDK和Hadoop安装包一起上传至该目录，
执行下面命令安装

[root@hadoop102 software] tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量

[root@hadoop102 software] cd /opt/module/jdk1.8.0_212

[root@hadoop102 jdk1.8.0_212] cd /etc/profile.d
[root@hadoop102 jdk1.8.0_212] ll

在这里插入图片描述

[root@hadoop102 profile.d] sudo vim my_env.sh

在这里插入图片描述
重新加载环境变量配置：

[root@hadoop102 profile.d] source /etc/profile

测试：

[root@hadoop102 profile.d] java -version

3.6 Hadoop安装

[root@hadoop102 software] tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

配置Hadoop环境变量

[root@hadoop102 hadoop-3.1.3] sudo vim /etc/profile.d/my_env.sh

在这里插入图片描述

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

重新加载环境变量配置：

[root@hadoop102 hadoop-3.1.3] source /etc/profile

测试：

[root@hadoop102 hadoop-3.1.3] hadoop

4. Hadoop目录结构

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

后续经常使用的目录如下：
在这里插入图片描述