Hadoop完全分布式环境部署
- 准备3台虚拟机,使用ping命令确保虚拟机能够联网,以root用户身份分别在三台虚拟机完成以下系统配置:
(1)在三台虚拟机分别使用yum安装epel-release
(2)在三台虚拟机分别关闭防火墙,保证虚拟机间能够互相ping通
(3)在三台虚拟机分别创建hadoop用户,并配置sudo
(4)在三台虚拟机中分别创建/opt/module, /opt/software 文件夹,并将目录的所有者和所属群组改为haoop用户
(5)在三台虚拟机中卸载自带jdk
提示: rpm -qa | grep java | xargs -n1 rpm -e --nodeps
(6)修改主机名称(/etc/hosts),分别为hadoopxx hadoopxx hadoopxx(xx用自己名字拼音首字母替换)
(7)配置hosts文件,将主机名与IP进行映射
(8)检查上述配置是否生效,不生效可重启虚拟机
2、切换到hadoop身份,分别在三台虚拟机安装JDK
(1)上传JDK安装包到/opt/software,解压安装到/opt/module
(2)配置环境变量,在/etc/profile.d目录下创建自己的环境变量配置文件my_env.sh
(3)添加环境变量JAVA_HOME, 并将JAVA_HOME/bin添加到PATH目录
(4)用source命令使环境变量设置生效
(5)查看JDK是否安装成功
3、以hadoop身份,分别在三台虚拟机继续安装Hadoop
(1)下载Hadoop-3.1.3.tar.gz到/opt/software,解压安装到/opt/module
(2)在my_env.sh文件添加HADOOP_HOME环境变量,并追加到PATH环境变量
(3)用source命令使环境变量生效
(4)配置无密码登录,确保主机间能够以hadoop身份通过ssh无密码互相访问(包括自己)
4.集群配置
(1)集群规划如下:
第一个节点: NameNode、DataNode、NodeManager
第二个节点: DataNode、ResourceManager、NodeManager
第三个节点:Secondary NameNode, DataNode,NodeManager
(2)在一台机器配置:core-site.xml 、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers文件
(3)将配置文件同步到其它两个节点
(4)启动hdfs
(5)启动yarn
(6)浏览器测试hdfs、yarn