当前位置：首页 > article >正文

hadoop伪分布式搭建教程

article 2025/2/21 3:38:16

官方参数文档

Apache Hadoop 3.3.5 – HDFS Users Guide

Hadoop是一个分布式存储和计算框架，由以下几个组件组成：

1. Hadoop Distributed File System (HDFS)：Hadoop分布式文件系统，用于存储大量数据，并提供高可靠性和高可用性。

2. MapReduce：一种编程模型，用于处理大规模数据集。它将数据分成小块，并在分布式计算集群上并行处理。

3. YARN (Yet Another Resource Negotiator)：Hadoop的资源管理器，用于管理集群中的计算资源，并分配任务给不同的节点。

4. Hadoop Common：包含Hadoop所需的共享库和工具。

5. Hadoop Ozone：Hadoop的对象存储层，用于存储和管理大规模的非结构化数据。

6. Hadoop Archives：Hadoop的存档工具，用于将文件和目录压缩成一个单独的归档文件。

7. Hadoop KMS (Key Management Server)：Hadoop的密钥管理器，用于管理和保护数据加密密钥。

8. Hadoop HttpFS：Hadoop的HTTP文件系统，提供了一个REST接口，可以通过HTTP访问Hadoop文件系统。

以下是一些关于Hadoop组件的链接：

1. HDFS：Apache Hadoop 3.3.5 – HDFS Users Guide

2. MapReduce：Apache Hadoop 3.3.5 – MapReduce Tutorial

3. YARN：Apache Hadoop 3.3.5 – Apache Hadoop YARN

4. Hadoop Common：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/CommonJars.html

5. Hadoop Ozone：https://hadoop.apache.org/docs/stable/hadoop-ozone/index.html

6. Hadoop Archives：https://hadoop.apache.org/docs/stable/hadoop-archive-logs/HadoopArchives.html

7. Hadoop KMS：Hadoop KMS – Hadoop Key Management Server (KMS) - Documentation Sets

8. Hadoop HttpFS：HttpFS – Hadoop HDFS over HTTP - Documentation Sets

代码相关的问题，请提供具体问题和代码。

基础环境准备

jdk包上传并且解压

添加jdk环境变量

配置免密登录

ssh-keygen -t加密算法 -b密钥长度（用于生成ssh密钥），将公钥分发到远程主机上

Hadoop伪分布式集群搭建

hadoop的搭建(压缩包的解压)

添加环境变量

sudo vim /etc/profile.d/hadoop.sh

export HADOOP HOME=/opt/module/hadoop-2.7.7

export PATH=$PATH:$HADOOP HOME/bin:$HADOOP HOME/sbin

source /etc/prorifle #配置生效

hadoop version

bin目录

sbin目录（管理hadoop的脚本）

配置hdfs

1、官方网址查询

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

通过这些网址，可以了解最新的全部的hadoop 配置信息，而且包括一些过时的定义标识，从而更好地维护您的集群。

(2条消息) hadoop搭建四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍_蜗牛!Destiny的博客-CSDN博客

(都是在解药的hadoop文件里编辑)

1、配置core-site.xml

2、配置hdfs-site.xml

3、配置mapred-site.xml

4、配置yarn-site.xml

<configuration>

<property>

<name>yarn.resourcemanager.hostname</nam

<value>hadoop</value> #主机名字

</property>

<property>

<name>yarn.nodemanager.aux-services</nam

<value>mapreduce_shuffle</value>

伪分布式配置slaves（简单版本）

伪分布式配置slaves是一种在单台计算机上模拟分布式计算的方法。在这种配置中，我们将单台计算机视为一个集群，然后在该计算机上启动多个slave节点来模拟多台计算机的情况。

为了配置伪分布式，我们需要安装和配置Hadoop和其他必要的软件。然后，我们需要在单台计算机上启动多个slave节点。这可以通过在不同的端口上启动多个Hadoop进程来实现。

在伪分布式配置中，所有的slave节点都运行在同一台计算机上，因此它们共享相同的资源，如内存和硬盘空间。这种配置适合于开发和测试Hadoop应用程序，但不适合生产环境。

需要注意的是，伪分布式配置不同于真正的分布式配置，因为它只是在单台计算机上模拟了分布式环境。在真正的分布式环境中，我们需要多台计算机来构建一个集群，并且每台计算机都运行着一个或多个slave节点。

直接在hadoop文件目录下配置

cd hadoop

vim slaves

添加主机的名字

格式化NameNode

格式化NameNode是指将Hadoop分布式文件系统（HDFS）上的NameNode节点的元数据清空，以便重新开始使用。这通常是在重新启动集群之前执行的操作。

hdfs namenode -format

启动hadoop

jps查看进程、

jps是Java Virtual Machine Process Status Tool的缩写，它是用于查看Java进程的命令行工具。jps命令可以显示当前系统中所有正在运行的Java进程的进程ID和进程名。

$ jps

12345 Jps

67890 MyJavaApp

ui界面

hdfs上传文件

hadoop fs -put /path/to/local/file /path/in/hdfs

http://www.kler.cn/a/16738.html

相关文章：

【react从入门到精通】React JSX详解

pytorch学习率设置——optimizer.param_groups、对不同层设置学习率、动态调整学习率。

Java中几种常量池面试总结

OVS常用命令与使用总结

Python_PyStray结合Tkinter显示系统托盘图标

SpringMVC与SpringWebFlux

【Spring Security】| 从0到1编写一个权限认证 | 学会了吗？

MEET开发者 | 选择和努力一样重要，专访杭州三汇测试工程师齐雪莲

c++标准模板（STL）（std::array）（三）

高程实验8队列

ROS Noetic版本 rosdep找不到命令不能使用的解决方法

剑指 Offer 51. 数组中的逆序对

计算机视觉 | 人工智能自己总结（下）

数据库之事务隔离级别详解

08.watchEffect.上

CTF权威指南笔记 -第二章二进制文件-2.1-汇编原理

r语言tidyverse教程：3数据重塑tidyr

Baumer工业相机堡盟相机如何使用偏振功能（偏振相机优点和行业应用）（C#）

MySQL数据库中，在读已提交和可重复读这两个不同事务隔离级别下幻读的区别

来CSDN两年了，一些小感想