当前位置: 首页 > article >正文

CentOS7下Hadoop集群分布式安装详细图文教程

1、集群规划

主机

角色

DSS20

NameNode    DataNode   ResourceManager  NodeManager

DSS21

SecondaryNameNode  NameNode           NodeManager

DSS22

DataNode          NodeManager

1.1、环境准备

1.1.1 关闭防火墙

#查看防火墙状态
firewall-cmd --state	
#停止firewalld服务
systemctl stop firewalld.service  
#开机禁用firewalld服务
systemctl disable firewalld.service  

1.1.2、hadoop集群登录时免密登录注意点以及步骤

        在3台机子都要执行如下操作:

1、vim /etc/hosts编辑,在后面添加以下行。

vim /etc/hosts
#在后面添加以下行
DSS20 192.168.3.20
DSS21 192.168.3.21
DSS22 192.168.3.22

2、使用以下命令,分别更改3台机器的主机名,在3个节点分别执行如下操作:

#在DSS20节点执行
hostnamectl set-hostname DSS20
#在DSS21节点执行
hostnamectl set-hostname DSS21
#在DSS22节点执行
hostnamectl set-hostname DSS22

执行完成后,分别重启后生效。

3、修改ssh的配置文件、 3个节点都需要修改

vi /etc/ssh/sshd_config
##将如下代码注释掉
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

4、要使3个节点免密登陆,需先在本地机器使用ssh-keygen一个公私钥对,如下:

在3个节点分别执行:ssh-keygen -t rsa,以DSS20节点为例:

[root@dss20 ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:hklZKWkiaKI0nAIIOZ/SGC2xsC3TuHQyMavgag9PQ+E root@dss20
The key's randomart image is:
+---[RSA 2048]----+
|XB.    ...       |
|@%* . +o.        |
|&%+= oo.         |
|O+O .. o         |
|oo E  o S        |
|. .    .         |
|.o o             |
|. = .            |
|   o             |
+----[SHA256]-----+
[root@dss20 .ssh]#cd /root/.ssh/
[root@dss20 .ssh]#cat id_rsa.pub > authorized_keys
[root@dss20 ~]#chmod 700 ~/.ssh
[root@dss20 ~]#chmod 600 ~/.ssh/authorized_keys

5、传送文件

在dss20、dss21、dss22分别执行一下操作:

scp /root/.ssh/authorized_keys dss20:/root/.ssh/
scp /root/.ssh/authorized_keys dss21:/root/.ssh/
scp /root/.ssh/authorized_keys dss22:/root/.ssh/

示例操作如下:

[root@dss20 .ssh]# scp /root/.ssh/authorized_keys dss21:/root/.ssh/
The authenticity of host 'dss21 (192.168.3.21)' can't be established.
ECDSA key fingerprint is SHA256:YITxRzRr8H26YCwhKfLh0kHTirDLdKr42yWl22r/l+Y.
ECDSA key fingerprint is MD5:e4:5e:d5:dc:03:55:05:ba:bc:00:5c:0b:da:d2:90:32.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'dss21,192.168.3.21' (ECDSA) to the list of known hosts.
root@dss21's password: 
authorized_keys                                                                                                   100%  392    47.6KB/s   00:00    
[root@dss20 .ssh]# scp /root/.ssh/authorized_keys dss22:/root/.ssh/
The authenticity of host 'dss22 (192.168.3.22)' can't be established.
ECDSA key fingerprint is SHA256:YITxRzRr8H26YCwhKfLh0kHTirDLdKr42yWl22r/l+Y.
ECDSA key fingerprint is MD5:e4:5e:d5:dc:03:55:05:ba:bc:00:5c:0b:da:d2:90:32.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'dss22,192.168.3.22' (ECDSA) to the list of known hosts.
root@dss22's password: 
authorized_keys                                                                                                   100%  392    40.4KB/s   00:00    
[root@dss20 .ssh]#
[root@dss20 ~]#  cd /root/.ssh
[root@dss20 .ssh]# ll
总用量 16
-rw-------. 1 root root 1176 1月  12 10:25 authorized_keys
-rw-------. 1 root root 1679 1月  11 22:55 id_rsa
-rw-r--r--. 1 root root  392 1月  11 22:55 id_rsa.pub
-rw-r--r--. 1 root root  540 1月  12 10:24 known_hosts
[root@dss20 .ssh]# cat known_hosts
dss21,192.168.3.21 ecdsa-sha2-nistp256 AAAAE2VjZHNhLXNoYTItbmlzdHAyNTYAAAAIbmlzdHAyNTYAAABBBNdk8m/uErLF2rhHAs74bO7Q+3IydFc8JMYU/fRT1Ck5HxQspny9UrZ3b9GaOPXInBwwm1FeUE2+za43yRZaVjc=
dss22,192.168.3.22 ecdsa-sha2-nistp256 AAAAE2VjZHNhLXNoYTItbmlzdHAyNTYAAAAIbmlzdHAyNTYAAABBBNdk8m/uErLF2rhHAs74bO7Q+3IydFc8JMYU/fRT1Ck5HxQspny9UrZ3b9GaOPXInBwwm1FeUE2+za43yRZaVjc=
dss20,192.168.3.20 ecdsa-sha2-nistp256 AAAAE2VjZHNhLXNoYTItbmlzdHAyNTYAAAAIbmlzdHAyNTYAAABBBBrELKY7s7Hmg1OrV9OE5beTl/2JI6K/neXli2mknZfKiUmNSOh9L19ewgtmKqEVevR83QdK+ZRedrMFENRPThg=
[root@dss20 .ssh]# scp /root/.ssh/authorized_keys dss20:/root/.ssh/

6、首次执行需要输入密码

ssh dss21
ssh dss22
ssh dss20

第二次后就无需再输入密码,如下:

1.1.3、安装JDK

将JDK 1.8安装jdk-8u241-linux-x64.tar.gz上传到/opt/目录下,如下操作:

 cd /opt/
 tar zxvf jdk-8u241-linux-x64.tar.gz
 mv /opt/jdk1.8.0_241  /opt/jdk1.8

#复制jdk1.8目录到dss21、dss22
scp -r jdk1.8 root@dss21:$PWD
scp -r jdk1.8 root@dss22:$PWD

#分别在dss20、dss21、dss22配置环境变量
vim /etc/profile
#在最下方添加一下内容	
export JAVA_HOME=/opt/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar  	
#重新加载环境变量文件
source /etc/profile
#查看是否生效
java -version

1.2、hadoop安装

1.2.1、上传Hadoop安装包hadoop-2.7.2.tar.gz到dss20 /opt/server目录下,或下载

cd /opt/server/
#下载
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

   1.2.2、解压hadoop-2.7.2.tar.gz

 tar zxvf hadoop-2.7.2.tar.gz

     1.2.3、修改配置文件(配置文件路径 hadoop-2.7.2/etc/hadoop)

[root@dss20 server]# cd hadoop-2.7.2/etc/hadoop
[root@dss20 hadoop]# ll
总用量 152
-rw-r--r--. 1 10011 10011  4436 1月  26 2016 capacity-scheduler.xml
-rw-r--r--. 1 10011 10011  1335 1月  26 2016 configuration.xsl
-rw-r--r--. 1 10011 10011   318 1月  26 2016 container-executor.cfg
-rw-r--r--. 1 10011 10011   774 1月  26 2016 core-site.xml
-rw-r--r--. 1 10011 10011  3670 1月  26 2016 hadoop-env.cmd
-rw-r--r--. 1 10011 10011  4224 1月  26 2016 hadoop-env.sh
-rw-r--r--. 1 10011 10011  2598 1月  26 2016 hadoop-metrics2.properties
-rw-r--r--. 1 10011 10011  2490 1月  26 2016 hadoop-metrics.properties
-rw-r--r--. 1 10011 10011  9683 1月  26 2016 hadoop-policy.xml
-rw-r--r--. 1 10011 10011   775 1月  26 2016 hdfs-site.xml
-rw-r--r--. 1 10011 10011  1449 1月  26 2016 httpfs-env.sh
-rw-r--r--. 1 10011 10011  1657 1月  26 2016 httpfs-log4j.properties
-rw-r--r--. 1 10011 10011    21 1月  26 2016 httpfs-signature.secret
-rw-r--r--. 1 10011 10011   620 1月  26 2016 httpfs-site.xml
-rw-r--r--. 1 10011 10011  3518 1月  26 2016 kms-acls.xml
-rw-r--r--. 1 10011 10011  1527 1月  26 2016 kms-env.sh
-rw-r--r--. 1 10011 10011  1631 1月  26 2016 kms-log4j.properties
-rw-r--r--. 1 10011 10011  5511 1月  26 2016 kms-site.xml
-rw-r--r--. 1 10011 10011 11237 1月  26 2016 log4j.properties
-rw-r--r--. 1 10011 10011   951 1月  26 2016 mapred-env.cmd
-rw-r--r--. 1 10011 10011  1383 1月  26 2016 mapred-env.sh
-rw-r--r--. 1 10011 10011  4113 1月  26 2016 mapred-queues.xml.template
-rw-r--r--. 1 10011 10011   758 1月  26 2016 mapred-site.xml.template
-rw-r--r--. 1 10011 10011    10 1月  26 2016 slaves
-rw-r--r--. 1 10011 10011  2316 1月  26 2016 ssl-client.xml.example
-rw-r--r--. 1 10011 10011  2268 1月  26 2016 ssl-server.xml.example
-rw-r--r--. 1 10011 10011  2250 1月  26 2016 yarn-env.cmd
-rw-r--r--. 1 10011 10011  4567 1月  26 2016 yarn-env.sh
-rw-r--r--. 1 10011 10011   690 1月  26 2016 yarn-site.xml

1、hadoop-env.sh文件配置

vi hadoop-env.sh
#文件最后添加
export JAVA_HOME=/opt/jdk1.8

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 

2、core-site.xml文件配置

#设置Hadoop本地保存数据路径
mkdir -p /opt/server/data/hadoop-2.7.2

#设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统
 vi core-site.xml
 #把一下内容添加<configuration></configuration>内,如下:

<configuration>
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://dss20:8020</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/opt/server/data/hadoop-2.7.2</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
   <name>hadoop.http.staticuser.user</name>
   <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
   <name>hadoop.proxyuser.root.hosts</name>
   <value>*</value>
</property>

<property>
   <name>hadoop.proxyuser.root.groups</name>
   <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
   <name>fs.trash.interval</name>
   <value>1440</value>
</property>
</configuration>

3、hdfs-site.xml文件配置

#设置SNN进程运行机器位置信息
vi hdfs-site.xml
<!-- 设置SNN进程运行机器位置信息 -->
<configuration>
<property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>dss21:9868</value>
</property>
</configuration>

4、mapred-site.xml文件配置

复制一份mapred-site.xml文件,如下:

cp mapred-site.xml.template mapred-site.xml
#设置MR程序默认运行模式: yarn集群模式 local本地模式 
vi mapred-site.xml
<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<configuration>
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>dss20:10020</value>
</property>

<!-- MR程序历史服务器web端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>dss20:19888</value>
</property>

<property>
 <name>yarn.app.mapreduce.am.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
 <name>mapreduce.map.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
 <name>mapreduce.reduce.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
</configuration>

5、yarn-site.xml文件配置

#设置YARN集群主角色运行机器位置
vi yarn-site.xml
<!-- 设置YARN集群主角色运行机器位置 -->
<configuration>
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>dss20</value>
</property>

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
   <name>yarn.nodemanager.pmem-check-enabled</name>
   <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>

<!-- 开启日志聚集 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
   <name>yarn.log.server.url</name>
   <value>http://dss20:19888/jobhistory/logs</value>
</property>

<!-- 历史日志保存的时间 7天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>
</configuration>

6、workers文件配置

vi workers
#此空白文件配置如下:
dss20
dss21
dss22

至此,hadoop配置基本完成,可以直接把配置好的安装包直接同步至另外2个节点,可以节省安装配置时间。

1.2.4、分发同步hadoop安装包

  cd /opt/server
  #分发同步安装包
  scp -r hadoop-2.7.2 root@dss212:$PWD
  scp -r hadoop-2.7.2 root@dss22:$PWD

同步分发的时间,请喝点茶等待,同步完成,如下图:

1.2.5、将hadoop添加到环境变量(3个节点)

vim /etc/profile
#在最下方添加一下内容	
export HADOOP_HOME=/opt/server/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
#重新加载环境变量文件  
source /etc/profile

1.2.6、Hadoop集群启动

        首次启动,初始化namenode,在dss20主节点执行:

hdfs namenode -format

        启动hadoop

cd /opt/server/hadoop-2.7.2/sbin 
#目录下执行代码执行
start-all.sh

查看dss20节点状态,如下图:

查看dss21节点状态,如下图:

查看dss22节点状态,如下图:

1.2.7、查看hadoop UI管理界面

hadoop管理地址:http://192.168.3.20:8088


hdfs管理地址:http://192.168.3.20:50070

至此,安装完成!


http://www.kler.cn/a/501773.html

相关文章:

  • js:根据后端返回数据的最大值进行计算然后设置这个最大值为百分之百,其他的值除这个最大值
  • 面向对象分析与设计Python版 分析与设计概述
  • Kafka 主题管理
  • 使用Python实现基于大数据的市场趋势预测
  • 前端学习-事件对象与典型案例(二十六)
  • ARP-Batch-Retargeting 部署实战
  • [Qt]常用控件介绍-按钮类控件
  • 【论文阅读】Workload Dependent Performance Evaluation of the Linux 2.6 I/O Schedulers
  • MySQL--2.1MySQL的六种日志文件
  • LabVIEW启动时Access Violation 0xC0000005错误
  • Node.js——path(路径操作)模块
  • FastDDS安装测试记录
  • 【数学】概率论与数理统计(五)
  • day06_Spark SQL
  • JavaScript函数:从基础到进阶拓展
  • C++中线程同步与互斥的4种方式介绍、对比、场景举例
  • web前端第六次作业---制作网页页面
  • 【25考研】西南交通大学软件工程复试攻略!
  • 《AI赋能鸿蒙Next,打造极致沉浸感游戏》
  • goland 环境变量配置
  • Java阶段四04
  • 【Artificial Intelligence篇】AI 入侵家庭:解锁智能生活的魔法密码,开启居家梦幻新体验
  • LeetCode - #186 翻转字符串里的单词 II(会员题)
  • 搭建k8s集群
  • 设计模式-结构型-组合模式
  • AI知识-TF-IDF技术(Term Frequency-Inverse Document Frequency)