当前位置: 首页 > article >正文

24年某马最新大数据相关软件安装文档

文章目录

  • 需要安装包软件--->关注+私信
  • CentOS7环境安装文档
    • 一、基础环境配置(不需要操作,以后工作中需要配置)
      • 1.主机名称修改: `/etc/hostname`
      • 2.修改域名解析文件: `/etc/hosts`
      • 3.关闭防火墙(重点,必须要做)
      • 4.禁用防火墙(重点,必须要做)
      • 5.关闭SELinux: `/etc/selinux/config`(重点,必须要做)
      • 6.时钟同步 (重点,必须要做)
      • 7.设置静态ip地址: `/etc/sysconfig/network-scripts/ifcfg-ens33` (大数据虚拟机不需要做,因为已经提前配置好了)
      • 8.创建软件安装目录
      • 9.重启系统
    • 二、Java环境安装
      • 1.java文件上传解压: `jdk-8u65-linux-x64.tar.gz `,注意:上传文件位置为 /export/server目录
      • 2.修改环境变量
      • 3.验证
    • 三、Mysql安装
      • 1.上传mysql压缩包(`mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar`)解压,注意:上传文件位置为 /export/server目录下
      • 2.卸载mariadb-libs
      • 3.rpm安装mysql
      • 4.初始化服务和修改文件权限
      • 5.启动服务并设置开机自启
      • 6.登录Mysql
      • 7.修改mysql密码及配置远程登录,注意:该操作是在mysql中进行
      • 8.退出mysql
    • 四、zookepper安装
      • 1.上传zookepper压缩包(`zookeeper-3.4.6.tar.gz`)解压,注意:上传文件位置为 /export/server目录
      • 2.添加环境变量
      • 3.创建数据目录
      • 4.修改配置文件(注意:在Linux操作系统中,几乎所有软件都有配置)
      • 5.zookeeper服务操作
      • 6.查看运行的java服务
      • 7.集群搭建说明
      • 8.集群免密登录
    • 五、hadoop安装
      • 1.上传hadoop压缩包(`hadoop-3.3.0-Centos7-64-with-snappy.tar.gz`)解压,注意:上传文件位置为 /export/server目录
      • 2.配置环境变量
      • 3.手动修改配置文件(3和4二选一)
        • ① hadoop-env.sh文件
        • ② core-site.xml文件
        • ③ hdfs-site.xml文件
        • ④ mapred-site.xml文件
        • ⑤ yarn-site.xml文件
        • ⑥ workers文件
      • 4.使用配置文件替换(3和4二选一)
      • 5.集群搭建说明(node1)
      • 6.hadoop集群启动
        • ① 数据初始化(格式化)
        • ② 脚本启动和关闭
      • 7.常见错误汇总
    • 六、Hive的安装 hive安装一台即可 也可以安装多台
      • 1.上传安装包 解压
      • 2.解决Hive与Hadoop之间guava版本差异
      • 3. 配置环境变量
      • 4. 修改配置文件
        • ① hive-env.sh
        • ② hive-site.xml
      • 5.上传mysql jdbc驱动到 `/export/server/apache-hive-3.1.2-bin/lib/` 下
      • 6.初始化元数据
      • 7.在hdfs创建hive存储目录
      • 8.启动hive
        • ① 启动metastore服务
        • ② 启动hiveserver2服务

需要安装包软件—>关注+私信

CentOS7环境安装文档

前期准备工作

1、通过VMWare安装纯净版CentOS7

2、使用CRT连接虚拟机

一、基础环境配置(不需要操作,以后工作中需要配置)

1.主机名称修改: /etc/hostname

echo node1 > /etc/hostname

2.修改域名解析文件: /etc/hosts

后续搭建集群时使用域名访问电脑

在平时使用www.baidu.com域名访问时,最终会同dns服务器将域名解析为ip地址访问

echo '192.168.88.100 node1.itcast.cn node1' >> /etc/hosts
echo '192.168.88.101 node2.itcast.cn node2' >> /etc/hosts
echo '192.168.88.102 node3.itcast.cn node3' >> /etc/hosts

3.关闭防火墙(重点,必须要做)

 systemctl stop firewalld.service

4.禁用防火墙(重点,必须要做)

 systemctl disable firewalld.service

5.关闭SELinux: /etc/selinux/config(重点,必须要做)

setenforce 0
sed -i "s/enforcing/disabled/" /etc/selinux/config

普及:Shell脚本中的sed命令 => 查找、替换、删除操作

替换操作:

sed -i 正则表达式 要替换的源文件
正则表达式
s/旧关键词/新关键词/

6.时钟同步 (重点,必须要做)

ntpdate ntp4.aliyun.com

# 内部服务器不允许上网,内部搭建一个时钟服务器   同步内部
ntpdate  192.168.88.3

7.设置静态ip地址: /etc/sysconfig/network-scripts/ifcfg-ens33 (大数据虚拟机不需要做,因为已经提前配置好了)

sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.100"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33

8.创建软件安装目录

mkdir /export
cd /export
mkdir data logs server software

9.重启系统

init 6或者reboot

二、Java环境安装

1.java文件上传解压: jdk-8u65-linux-x64.tar.gz ,注意:上传文件位置为 /export/server目录

cd /export/server
tar zxvf /export/server/jdk-8u65-linux-x64.tar.gz

2.修改环境变量

echo 'export JAVA_HOME=/export/server/jdk1.8.0_65' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
source /etc/profile

3.验证

java -version

三、Mysql安装

1.上传mysql压缩包(mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar)解压,注意:上传文件位置为 /export/server目录下

cd /export/server
mkdir mysql5.7
tar xvf mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar -C mysql5.7
cd mysql5.7

2.卸载mariadb-libs

rpm -e --nodeps mariadb-libs

3.rpm安装mysql

rpm -ivh mysql-community-common-5.7.29-1.el7.x86_64.rpm mysql-community-libs-5.7.29-1.el7.x86_64.rpm mysql-community-client-5.7.29-1.el7.x86_64.rpm mysql-community-server-5.7.29-1.el7.x86_64.rpm

4.初始化服务和修改文件权限

mysqld --initialize
chown mysql:mysql /var/lib/mysql -R

5.启动服务并设置开机自启

systemctl start mysqld.service
systemctl enable mysqld.service

6.登录Mysql

Pass=$(grep 'A temporary password' /var/log/mysqld.log |awk '{print $NF}')
mysql -uroot -p"$Pass"

7.修改mysql密码及配置远程登录,注意:该操作是在mysql中进行

alter user user() identified by "hadoop";
use mysql;
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;
FLUSH PRIVILEGES; 

8.退出mysql

exit;

四、zookepper安装

1.上传zookepper压缩包(zookeeper-3.4.6.tar.gz)解压,注意:上传文件位置为 /export/server目录

cd /export/server
tar xvf /export/server/zookeeper-3.4.6.tar.gz
mv zookeeper-3.4.6 zookeeper

2.添加环境变量

echo 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profile
echo 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profile
source /etc/profile

问题:如果配置完成后,如何查看环境变量是否配置成功

echo $PATH

以上操作完成后,把/export/server同步到其他所有的机器上,针对其他的两台机器也要进行环境变量配置。

[root@node1 ~] # scp -r /export/server/zookeeper root@node2:/export/server/
[root@node1 ~] # scp -r /export/server/zookeeper root@node3:/export/server/

# 以下命令需要在node2和node3中在执行一遍
echo 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profile
echo 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profile
source /etc/profile

3.创建数据目录

mkdir -p /export/data/zkdata
echo 1 > /export/data/zkdata/myid

# 注意:!!!!!!!!!
# 注意:!!!!!!!!!
# 注意:!!!!!!!!!
# 搭建集群时,还需要在创建完node2虚拟机上执行
echo 2 > /export/data/zkdata/myid
# 搭建集群时,还需要在创建完node3虚拟机上执行
echo 3 > /export/data/zkdata/myid

4.修改配置文件(注意:在Linux操作系统中,几乎所有软件都有配置)

mv /export/server/zookeeper/conf/zoo_sample.cfg /export/server/zookeeper/conf/zoo.cfg
sed -i "s#^dataDir.*#dataDir=/export/data/zkdata#" /export/server/zookeeper/conf/zoo.cfg

# 配置2n+1个节点
echo 'server.1=node1:2888:3888' >> /export/server/zookeeper/conf/zoo.cfg
echo 'server.2=node2:2888:3888' >> /export/server/zookeeper/conf/zoo.cfg
echo 'server.3=node3:2888:3888' >> /export/server/zookeeper/conf/zoo.cfg

在zookeeper集群中所有节点都会开启3888端口,3888端口用来leader发生故障时,投票选举出新的leader。
所有节点都会与其它节点的3888端口建立TCP连接

但只有leader才会开启2888端口,其它节点都会与leader2888端口建立TCP连接, 其主要功能是接收其它follwoer和observer节点发送过来的写事务并执行。

SSH:22

FTP:21

MySQL:3306

ZooKeeper:2181

5.zookeeper服务操作

# 启动
zkServer.sh start
# 停止
zkServer.sh stop
# 查看状态
zkServer.sh status

## 注意启动时需要三台机器都执行启动服务

6.查看运行的java服务

jps

显示Java程序的后台进程。

7.集群搭建说明

在node1的机器上配置完成后,需要将node1中的zookeeper目录复制到node2和node3的对应目录下,同时需要将基础环境配置步骤在node2和node3上重新执行一遍

集群之间还需要配置免密登录

注意:克隆完成后需要修改机器名和ip地址

8.集群免密登录

# 创建密钥
[root@node1 ~]# ssh-keygen
[root@node2 ~]# ssh-keygen
[root@node3 ~]# ssh-keygen

# 拷贝密钥到其他机器
[root@node1 ~]# ssh-copy-id node1
[root@node1 ~]# ssh-copy-id node2
[root@node1 ~]# ssh-copy-id node3

五、hadoop安装

1.上传hadoop压缩包(hadoop-3.3.0-Centos7-64-with-snappy.tar.gz)解压,注意:上传文件位置为 /export/server目录

cd /export/server
tar  zxvf /export/server/hadoop-3.3.0-Centos7-64-with-snappy.tar.gz

2.配置环境变量

echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile
source /etc/profile

3.手动修改配置文件(3和4二选一)

进入/export/server/hadoop-3.3.0/etc/hadoop目录下进行修改

① hadoop-env.sh文件
#设置JAVA_HOME环境变量,保证Hadoop可以找到Java运行环境
export JAVA_HOME=/export/server/jdk1.8.0_241
#以上配置完成后,在文件最后在添加
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 
② core-site.xml文件
<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoop-3.3.0</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>
③ hdfs-site.xml文件
<!-- 设置SNN进程运行机器位置信息 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node2:9868</value>
</property>
④ mapred-site.xml文件
<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<!-- MR程序历史服务器端地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>node1:10020</value>
</property>
 
<!-- 历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>node1:19888</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
⑤ yarn-site.xml文件
<!-- 设置YARN集群主角色运行机器位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node1</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 开启日志聚集 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
</property>

<!-- 保存的时间7天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>
⑥ workers文件
node1
node2
node3

4.使用配置文件替换(3和4二选一)

上传配置文件压缩包(hadoop-config.tar)解压,注意:上传文件位置为 /export/server目录

tar  xvf /export/server/hadoop-config.tar 
mv -f /export/server/hadoop-config/* /export/server/hadoop-3.3.0/etc/hadoop/
rm  /export/server/hadoop-config*  -rf

5.集群搭建说明(node1)

需要将node1中的Hadoop文件复制到node2和node3的对应位置

scp可以进行主机的文件复制拷贝
scp -r /export/server/hadoop-3.3.0  root@node2:/export/server/
scp -r /export/server/hadoop-3.3.0  root@node3:/export/server/

6.hadoop集群启动

① 数据初始化(格式化)

注意: 初始化操作必须在node1中执行

hdfs namenode -format

特别注意:这个指令只在第一次搭建集群式需要进行格式化操作,以后就不需要在执行这条命令了。

生产环境下执行此命令:直接枪毙!!!

由于此命名实际上是格式化Hadoop的数据目录,只需要在第一次搭建时执行一次即可,以后一定不要随便执行命令。

② 脚本启动和关闭
start-all.sh

stop-all.sh

http://192.168.88.161:9870

7.常见错误汇总

① JAVA_HOME找不到?

在这里插入图片描述

问题原因:/export/server/hadoop-3.3.0/etc/hadoop/hadoop-env.sh没有配置JAVA_HOME

解决方案:

55行添加 export JAVA_HOME=/export/server/jdk1.8.0_241

重新启动即可!

② 配置文件出错,导致启动报错

在这里插入图片描述

问题原因:导致以上Hadoop集群无法启动的主要原因在于hdfs-site.xml文件写错了

解决方案:查看错误文件名称,查看错误行号

以上错误已经说明,代表etc/hadoop的配置文件hdfs-site.xml文件有错误 => 错误行号22第2个字符

③ 在Windows电脑中,是否可以通过别名来实现对Hadoop集群的访问呢?

答:也是可以的,但是需要配置域名IP映射文件

C:\Windows\System32\drivers\etc

找到hosts文件

在这里插入图片描述

更改方式特别有趣,首先把hosts文件拖到桌面,更改以后,在拖回来就修改成功了!

在这里插入图片描述

配置完成后保存即可,如何验证是否配置成功呢?

在这里插入图片描述

④ Hadoop集群启动成功后,无法上传文件

大多数的原因是因为安全模式处于开启状态,一般情况下,首次启动Hadoop,需要等待一段时间以后才能上传。namenode 和 datanode心跳检测(3s),一般情况下namenode必须要保证datanode3个节点必须完全启动以后才能上传 => safemode(安全模式)

在这里插入图片描述

也有一种可能,大家没有进行初始化操作,也可能会导致文件无法上传!

还有一种情况:因为我们在配置文件中,指定的WebUI端口为node1:9870,HDFS在上传过程中默认校检你主机的名称是不是node1,如果你的文件来自于node1主机就允许上传,反之就不允许你上传!

解决方案:

在Windows电脑中,按Windows键 + R,输入drivers,然后回车

在这里插入图片描述

进入etc目录,找到hosts文件,然后拖动到桌面

在这里插入图片描述

⑤ 只有namenode,没有datanode

生产环境环境看日志,看看具体哪里报错了

在这里插入图片描述

根据日志提示解决问题

学习环境,直接删掉Hadoop的数据目录,重新格式化

node1/node2/node3:

rm -rf /export/data/hadoop-3.3.0/*

关闭Hadoop集群

stop-all.sh

在node1节点重新初始化:

hdfs namenode -format

重新启动集群,所有datanode全部恢复

start-all.sh

六、Hive的安装 hive安装一台即可 也可以安装多台

1.上传安装包 解压

cd /export/server/
tar zxvf /export/server/apache-hive-3.1.2-bin.tar.gz

2.解决Hive与Hadoop之间guava版本差异

rm -rf /export/server/apache-hive-3.1.2-bin/lib/guava-19.0.jar
cp /export/server/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar /export/server/apache-hive-3.1.2-bin/lib/

3. 配置环境变量

echo 'export HIVE_HOME=/export/server/apache-hive-3.1.2-bin' >> /etc/profile
echo 'export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/sbin' >> /etc/profile
source /etc/profile

4. 修改配置文件

① hive-env.sh
  • 修改文件名称
cd /export/server/apache-hive-3.1.2-bin/conf
mv hive-env.sh.template hive-env.sh
  • 写入数据
echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /export/server/apache-hive-3.1.2-bin/conf/hive-env.sh
echo 'export HIVE_CONF_DIR=/export/server/apache-hive-3.1.2-bin/conf' >> /export/server/apache-hive-3.1.2-bin/conf/hive-env.sh
echo 'export HIVE_AUX_JARS_PATH=/export/server/apache-hive-3.1.2-bin/lib' >> /export/server/apache-hive-3.1.2-bin/conf/hive-env.sh
② hive-site.xml
  • 打开文件
vim hive-site.xml
  • 复制粘贴如下内容
<configuration>
<!-- 存储元数据mysql相关配置 -->
<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://node1:3306/hive3?createDatabaseIfNotExist=true&amp;useSSL=false</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>root</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>hadoop</value>
</property>

<!-- H2S运行绑定host -->
<property>
    <name>hive.server2.thrift.bind.host</name>
    <value>node1</value>
</property>

<!-- 远程模式部署metastore metastore地址 -->
<property>
    <name>hive.metastore.uris</name>
    <value>thrift://node1:9083</value>
</property>

<!-- 关闭元数据存储授权  --> 
<property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
</property>
</configuration>

5.上传mysql jdbc驱动到 /export/server/apache-hive-3.1.2-bin/lib/

mysql-connector-java-5.1.32.jar

6.初始化元数据

schematool -initSchema -dbType mysql -verbos
#初始化成功会在mysql中创建74张表

7.在hdfs创建hive存储目录

hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

8.启动hive

① 启动metastore服务
#前台启动  关闭ctrl+c
/export/server/apache-hive-3.1.2-bin/bin/hive --service metastore

#前台启动开启debug日志
/export/server/apache-hive-3.1.2-bin/bin/hive --service metastore --hiveconf hive.root.logger=DEBUG,console  

#后台启动 进程挂起  关闭使用jps+ kill -9
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &
② 启动hiveserver2服务
  nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &

 #注意 启动hiveserver2需要一定的时间  不要启动之后立即beeline连接 可能连接不上

若有错误与不足请指出,关注DPT一起进步吧!!!


http://www.kler.cn/a/421135.html

相关文章:

  • 微软表示不会使用你的 Word、Excel 数据进行 AI 训练
  • 机器学习周志华学习笔记-第13章<半监督学习>
  • 单片机学习笔记 12. 定时/计数器_定时
  • 13TB的StarRocks大数据库迁移过程
  • 我们来学mysql -- 事务并发之脏写(原理篇)
  • 代码随想录-算法训练营day31(贪心算法01:分发饼干,摆动序列,最大子数组和)
  • 每日小知识
  • autogen-agentchat 0.4.0.dev8版本的安装
  • HarmonyOS开发:关于签名信息配置详解
  • 【系统架构设计师】真题论文: 论软件质量保证及其应用(包括解题思路和素材)
  • Chromium网络调试篇-Fiddler 5.21.0 使用指南:捕获浏览器HTTP(S)流量(二)
  • CPU渲染和GPU渲染各自特点,优势,场景使用
  • 微信小程序横滑定位元素案例代码
  • 【GPT】代谢概念解读
  • uni-app打包为安卓APP的权限配置问题探索
  • 高效数据分析:五款报表工具助力企业智能决策
  • Spring Boot 启动流程详解
  • CSS定位技术详解:从基础到高级应用
  • koa中间件
  • AcWing 841. 字符串哈希
  • 深入探索进程间通信:System V IPC的机制与应用
  • PLC协议
  • eBPF:现代Linux的强大内核扩展技术
  • docker搭建umami
  • PHM技术:一维信号时序全特征分析(统计域/频域/时域)| 信号处理
  • 【机器人】01 强化学习、模仿学习和运动规划 仿真平台ISAAC Lab安装与使用