当前位置：首页 > article >正文

大数据数仓实战项目（离线数仓+实时数仓）1

article 2025/2/5 2:10:14

目录

1.课程目标

2.电商行业与电商系统介绍

3.数仓项目整体技术架构介绍

4.数仓项目架构-kylin补充

5.数仓具体技术介绍与项目环境介绍

6.kettle的介绍与安装

7.kettle入门案例

8.kettle输入组件之JSON输入与表输入

9.kettle输入组件之生成记录组件

10.kettle输出组件之文本文件输出

11.kettle输出组件之表输出、插入更新、删除组件

12.kettle整合hadoop

13.Hadoop file input组件

14.Hadoop file output组件

15.Kettle整合Hive

16.Kettle-Hive表输入组件

17.Kettle-Hive表输出组件

18.Kettle执行hivesql组件

19.kettle转换组件之值映射、增加序列、字段选择

20.kettle流程控件-Switchcase组件

21.kettle流程控件-过滤记录组件

22.kettle连接组件

23.kettle作业介绍

24.kettle-转换命名参数

25.kettle Linux部署

26.pansh执行转化任务

27.kitchensh执行转换任务

1.课程目标

2.电商行业与电商系统介绍

3.数仓项目整体技术架构介绍

4.数仓项目架构-kylin补充

5.数仓具体技术介绍与项目环境介绍

6.kettle的介绍与安装

7.kettle入门案例

这个连线是点击shift键，然后鼠标左键拖动

ctrl+s保存一下

csv输入配置

Excel输出配置

配置完

Ctrl+s保存一下

8.kettle输入组件之JSON输入与表输入

JSON输入

==========================================================

表输入

放到下面这个地方

查看主机地址

输出成功

但有些字段的格式有点问题

我们需要在这里控制一下

如果想让上面设置的MySQL连接可以重复使用

9.kettle输入组件之生成记录组件

10.kettle输出组件之文本文件输出

如果我们不想要头数据

则

防止中文乱码问题，还要设置编码

11.kettle输出组件之表输出、插入更新、删除组件

表输出

这里kettle会帮我们创建表

插入更新

上面就是认为当id相同时，这两个记录就算同一个记录

我们先看一下原先的数据是什么样子

然后启动

插入更新成功

删除

删除成功

12.kettle整合hadoop

最好重启一下

这里的bigdata-37就是下面的newhadoopcluster

13.Hadoop file input组件

上面就是我们的hdfs集群的路径

14.Hadoop file output组件

注意这里的编码要改成Linux对应的编码

15.Kettle整合Hive

这里我们已经创建好了

我们还是清空一下，重新创建一下

为空

下面创建文件

创建完加载到hive

16.Kettle-Hive表输入组件

17.Kettle-Hive表输出组件

执行成功，但这里速度特别特别的慢

18.Kettle执行hivesql组件

如果要在kettle中执行SQL

要新建一个作业

成功

下面我们查看一下hive中数据

19.kettle转换组件之值映射、增加序列、字段选择

值映射

1

2

3

4

==================================================================================================================================================

增加序列

==================================================================================================================================================

字段选择

这里就是要移除的字段

这里就是要改名的字段

20.kettle流程控件-Switchcase组件

21.kettle流程控件-过滤记录组件

22.kettle连接组件

==================================================================================================================================================

这里第一个步骤相当于左表，第二个步骤相当于右表

23.kettle作业介绍

转换组件可以找到我们之前开发好的任务

24.kettle-转换命名参数

======

查询成功，但这里的查询条件是写死在SQL语句中的

我们可以设置转换命名参数

双击转换的空白处

25.kettle Linux部署

26.pansh执行转化任务

下面我们看一下如何在Linux中执行一个转换任务

这里parm参数就是之前的转换命名餐参数

=========================

1

2

上面的路径全是Windows系统中的路径

我们要修改一下

3

27.kitchensh执行转换任务

=============================

将上一节转换命名参数去掉

在作业命名参数中，设置input和output

将转换和作业上传到Linux中

成功

http://www.kler.cn/a/531834.html

相关文章：

在Mac mini M4上部署DeepSeek R1本地大模型

【PDF提取局部内容改名】批量获取PDF局部文字内容改名基于QT和百度云api的完整实现方案

记忆化搜索和动态规划 --最长回文子串为例

第 1 天：UE5 C++ 开发环境搭建，全流程指南

基于人脸识别的课堂考勤系统

《逆向工程核心原理》第一~二章知识整理

Vue 3 30天精进之旅：Day 13 - 路由守卫

python-leetcode-二叉树的层序遍历

【论文公式】MathType打大写手写字母

ANSYS Workbench打开cdb文件

Vue-el挂载点

安装及使用Tomcat

软件测试 - 概念篇

Python MVC框架和其他Web框架有什么区别？

（电脑版）植物大战僵尸幼儿园版本，开启你的冒险之旅！

加载数据，并切分

计算机网络笔记再战——理解几个经典的协议1

Leetcode：680

【流媒体】搭建流媒体服务器

FFM 因子分解机原理与特征域概念解析

追逐低空经济，无人机研学技术详解

【双指针题目】

Vue3学习笔记-Vue开发前准备-1

Rust场景示例：为什么要使用切片类型

Deep Sleep 96小时：一场没有硝烟的科技保卫战