当前位置: 首页 > article >正文

Hadoop 3.4.0 安装与WordCount示例

Hadoop 3.4.0 安装与WordCount示例

1. 下载Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.4.0/hadoop-3.4.0.tar.gz

下载过程如下:

--2024-10-17 10:13:48--  https://archive.apache.org/dist/hadoop/common/hadoop-3.4.0/hadoop-3.4.0.tar.gz
Resolving archive.apache.org (archive.apache.org)... 65.108.204.189, 2a01:4f9:1a:a084::2
Connecting to archive.apache.org (archive.apache.org)|65.108.204.189|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 965537117 (921M) [application/x-gzip]
Saving to: ‘hadoop-3.4.0.tar.gz’
hadoop-3.4.0.tar.gz                                          93%[===============================================================================================================================>         ] 864.91M  1.11MB/s    eta 50s    h
hadoop-3.4.0.tar.gz                                         100%[========================================================================================================================================>] 920.81M  1.00MB/s    in 13m 44s
2024-10-17 10:27:33 (1.12 MB/s) - ‘hadoop-3.4.0.tar.gz’ saved [965537117/965537117]

2. 解压Hadoop

tar -xzf hadoop-3.4.0.tar.gz

3. 配置环境变量

sudo echo "export HADOOP_HOME=$PWD/hadoop-3.4.0" > /etc/profile.d/hadoop.sh
sudo echo "PATH=$PATH:$HADOOP_HOME/bin" >> /etc/profile.d/hadoop.sh

更新.bashrc文件并使其生效:

nano .bashrc
source .bashrc

4. 查看HDFS文件系统

hdfs dfs -ls /

输出如下:

Found 24 items
drwxr-xr-x   - root root      40960 2024-10-17 09:40 /bin
drwxr-xr-x   - root root       4096 2022-04-18 18:28 /boot
drwxr-xr-x   - root root       3540 2024-10-17 08:42 /dev
...

5. 运行WordCount示例

创建输入目录和文件:

mkdir wc-in
echo "bla bla" > wc-in/a.txt
echo "bla wa wa" > wc-in/b.txt

执行WordCount作业:

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount wc-in wc-out

6. 查看结果

查看本地输出:

ls wc-out/*
cat wc-out/*

输出如下:

bla     3
wa      2

查看HDFS上的输出:

hdfs dfs -cat wc-out/*

输出如下:

bla     3
wa      2

http://www.kler.cn/news/361984.html

相关文章:

  • git取消被跟踪的文件并忽略
  • 全新子比主题7.9.2开心版 子比主题最新版源码
  • RabbitMQ 发布确认模式
  • 100种算法【Python版】第4篇——回溯法
  • 力扣 困难 52.N皇后II
  • 【论文学习与撰写】,论文word文档中出现乱码的情况,文档中显示的乱码,都是英文字母之类的,但打印预览是正常的
  • 重学SpringBoot3-Reactive-Streams规范
  • 基于ADC方法的系统效能评估代码实现
  • Linux_VI、VIM编辑器
  • 如何优雅解决Go版本安装问题及与Oracle 11g的兼容性挑战20241017
  • React是如何工作的?
  • [实时计算flink]DataStream连接器设置方法
  • Linux中的socket文件和网络变成中的socket异同点
  • Python爬取京东商品信息,详细讲解,手把手教学(附源码)
  • LUCEDA IPKISS Tutorial 78:自定义Taper
  • 力扣 143.重排链表【详细手写】
  • 华三服务器R4900 G5在图形界面使用PMC阵列卡(P460-B4)创建RAID,并安装系统(中文教程)
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
  • 英伟达开源超强模型Nemotron-70B;OpenAI推出Windows版ChatGPT桌面客户端
  • wps安装教程
  • 在Jmeter中的JSR223 PreProcessor使用javascript实战
  • ubuntu20 工作区独立
  • springboot063知识管理系统(论文+源码)_kaic
  • 鸿蒙_入门
  • 【雷电模拟器命令合集操作大全】官方文档整理贴
  • mysql查询id不在列表中的记录