当前位置：首页 > article >正文

大数据Hadoop入门2

article 2025/1/31 9:10:48

目录

第三部分（Hadoop MapReduce和Hadoop YARN）

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

4.Hadoop MapReduce介绍、阶级划分和进程组成

5.Hadoop MapReduce官方示例-圆周率PI评估

6.Hadoop MapReduce官方示例-wordCount单词统计

7.Hadoop MapReduce--map阶段执行过程

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分（数据仓库基础和Hadoop Hive入门）

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能编辑

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

10.Hadoop Hive安装部署--配置文件修改编辑

11.Hadoop Hive安装部署--metastore服务启动方式

12.Apache hive--新老客户端使用hiveserver2服务

13.Apache hive--Datagrip连接HiveServer2

14.Apache hive--数据库与建库、切换库操作

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

16.Apache hive--表与建表SQL语句--默认分隔符使用

17.Apache hive--常见的show语法

18.Apache hive--注释comment中文乱码解决

第三部分（Hadoop MapReduce和Hadoop YARN）

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

map这里不能翻译成地图，翻译为mapping比较好一点

4.Hadoop MapReduce介绍、阶级划分和进程组成

5.Hadoop MapReduce官方示例-圆周率PI评估

首先验证一下我们的hadoop集群有没有启动

发现没有启动，下面我们启动一下

启动时，我们看一下示例

先进入hadoop安装包

安装包中有一个share目录

然后再cd到hadoop中

然后再cd到MapReduce中

我们就要使用其中的example jar包来评估圆周率PI值

我们的yarn页面也正有一个程序在运行

6.Hadoop MapReduce官方示例-wordCount单词统计

这里上传可以使用web页面上传

新建一个input

然后点击上传

我们可以浏览一下这个文件

在当前路径下使用这个示例

看一下输出的output中的结果

结果有两个

第一个没东西，表示执行成功

第二个是结果

7.Hadoop MapReduce--map阶段执行过程

红线左边就是map阶段

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

但yarn不仅支持MapReduce，还支持spark、flink等

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

下面以MR（MapReduce）程序为例

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分（数据仓库基础和Hadoop Hive入门）

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

比如CRM就是客户关系管理

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

下面我们看一下配置

拖拽过去

下面做一个解压

然后安装

继续安装

没有报错，上面就是安装成功了

下面进行初始化设置

因为是初次启动，不知道密码

下面我们查看一下临时密码

登录成功

下面修改密码

授权

授权结束点击ctrl+d退出MySQL

如果MySQL安装错误

下面是卸载

10.Hadoop Hive安装部署--配置文件修改编辑

hive不需要每台机器都安装，只要安装一台机器即可

还有另外一个配置文件

红框中的是MySQL的用户名和密码

红框就是元数据服务的地址

将上面的内容复制粘贴

首先打开红框中的lib地址

将资料中的驱动拖拽到lib文件夹中

这里就成功了

没有就去创建

11.Hadoop Hive安装部署--metastore服务启动方式

因为我们使用的是远程模式

所以要单独启动

点击ctrl+c服务就关闭了

后台启动就是将服务当做一个进程，挂在后台去运行

使用jsp查看一下

多了runjar进程，就是我们上面的hive进程

后台启动的日记在nohup.out中

后台启动想要关闭

使用kill杀死进程

12.Apache hive--新老客户端使用hiveserver2服务

图中可以发现

老客户端可以直接访问metastore

新客户端是先访问另外一个服务hiveserver2，然后访问metastore

所以使用新客户端需要启动两个服务

上面我们已经启动了metastore

我们在启动hiveserver2，两个启动命令十分相似

多了新的runjar，启动成功

==================================================================================================================================================

上面的情况是

服务在node1机器上，客户端也在node1机器上

没有远程访问的感觉

我们使用scp将hive安装包拷贝给其它机器node3

启动hive

启动成功

这样我们的第一代客户端就成功连接到hive服务上

我们可以查看一下当前有哪些数据库和表

第一代客户端官方不推荐

还是使用第二代客户端

但第二代客户端想要我们手动输入地址，连接到我们的hive服务的地址（我们的hive服务在node1机器上）

这里需要我们记住

我们在企业中干活，别人让我们去访问hive，就需要怎么一个hive地址

这个地址就告诉我们。我们的hiveserver2服务运行在哪个机器上，端口是多少

继续输入用户，没有密码

下面就已经成功连接到hiveserver2服务上

我们同样可以查看数据库和表

上面就是使用beeline客户端连接到hive上

13.Apache hive--Datagrip连接HiveServer2

建好后选择关联本地目录到工程中

下面就要配置连接

连接到hive上

首先要解决驱动问题

系统自带的驱动并不友好，我们将其删除

使用课程提供的驱动

这里变白就解析成功了

返回进行其它配置

主要是URL地址

就是beeline连接的地址

测试连接

14.Apache hive--数据库与建库、切换库操作

默认使用我们的default数据库

如果使用其它数据库

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

下面我们看一个练习，如何将我们应该结构化文件映射成表

我们可以使用beeline客户端进行操作

但操作不方便

还是使用datagrip进行操作

首先查看集群是否启动成功

在datagrip中选中，然后点击F4打开我们的控制台

在控制台中输入一句查询，成功

下面我们开始写SQL文件

选中运行

建完表

我们就可以上传数据了

我们可以在hdfs中上传

16.Apache hive--表与建表SQL语句--默认分隔符使用

我们发现不写分隔符语法并没有报错，它有默认分隔符

17.Apache hive--常见的show语法

我们直接写show table是当前库下的所有表

如果换一个数据库

也可以指定数据库

18.Apache hive--注释comment中文乱码解决

我们之前建了一个表

但在查看表的原信息时

这里的原因的hive底层的元数据是将我们的元数据保存在MySQL中的

MySQL的编码不支持中文，主要支持latin1的编码

上面的修改都是在MySQL中进行的

其中的hive3就是hive保存元数据的地方

其中有很多张表，就是保存的hive元数据

我们直接执行SQL语句修改hive的元数据信息

执行完，ctrl+d结束

但乱码还是存在

因为我们的修改完后

要将表删除，重新创建才行

http://www.kler.cn/a/525725.html

相关文章：

qt-C++笔记之QLine、QRect、QPainterPath、和自定义QGraphicsPathItem、QGraphicsRectItem的区别

.NET MAUI进行UDP通信（二）

Vue3 结合 .NetCore WebApi 前后端分离跨域请求简易实例

【Rust自学】14.6. 安装二进制crate

实验七带函数查询和综合查询（2）

计算机网络 IP 网络层 2 （重置版）

单调栈算法

Vue 3 30天精进之旅：Day 09 - 组合式API

vscode和pycharm的区别

PYH与MAC的桥梁MII/MIIM

代理模式 -- 学习笔记

深入理解Java并发编程中的原子操作、volatile关键字与读写锁

手写MVVM框架-环境搭建

C#方法(练习)

rsync安装与使用-linux015

2025最新版MySQL安装使用指南

android 圆形弹窗摄像头开发踩坑——源码————未来之窗跨平台操作

VS2008 - debug版 - 由于应用程序配置不正确，应用程序未能启动。重新安装应用程序可能会纠正这个问题。

你的连接不是专用连接

信息学奥赛一本通 1606：【例 1】任务安排 1 | 洛谷 P2365 任务安排

Web-3.0（Solidity）基础教程

【PySide6拓展】QWindowCapture

AI在自动化测试中的伦理挑战

【Unity3D】实现横版2D游戏——单向平台（简易版）

31【api接口】

构建具身智能体的时空宇宙！GRUtopia：畅想城市规模下通用机器人的生活图景