当前位置: 首页 > article >正文

二百七十五、Kettle——ClickHouse增量导入数据补全以及数据修复记录表数据(实时)

一、目的

在完成数据修复后,需要生成修复记录

二、Hive中原有代码

2.1 表结构

--52、数据补全以及数据修复记录表 dwd_data_correction_record
create  table  if not exists  hurys_db.dwd_data_correction_record(
    data_type      int        comment '数据类型 1:转向比,2:统计,3:评价,4:区域,6:静态排队,7:动态排队',
    device_no      string     comment '设备编号',
    id             string     comment '唯一ID',
    create_time    timestamp  comment '创建时间',
    record_type    int        comment '记录类型 0:补全,1:修复'
)
comment '数据补全以及数据修复记录表'
partitioned by (day string)
stored as orc
;

2.2 SQL代码

--6 静态排队数据修复记录
insert into table  hurys_db.dwd_data_correction_record partition(day)
select
       '6' data_type,
       t1.device_no,
       t1.id,
       t1.create_time,
       '1' record_type,
       t1.day
from hurys_db.dwd_queue_error as t1
right join hurys_db.dwd_queue as t2
on t1.id=t2.id and t1.device_no=t2.device_no
where t1.id is not null and t1.day='2024-09-04'
;

三、ClickHouse中现有代码

3.1 表结构

--52、数据补全以及数据修复记录表 dwd_data_correction_record
create  table  if not exists  hurys_jw.dwd_data_correction_record(
    data_type      Int32      comment '数据类型 1:转向比,2:统计,3:评价,4:区域,6:静态排队,7:动态排队',
    device_no      String     comment '设备编号',
    id             String     comment '唯一ID',
    create_time    DateTime   comment '创建时间',
    record_type    Int32      comment '记录类型 0:补全,1:修复',
    day            Date       comment '日期'
)
ENGINE = MergeTree
PARTITION BY day
PRIMARY KEY (day,id)
ORDER BY (day,id)
SETTINGS index_granularity = 8192;

3.2 SQL代码

--6 静态排队数据修复记录
select
       '6' data_type,
       t1.device_no,
       t1.id,
       t1.create_time,
       '1' record_type,
       cast(t1.day as String) day
from hurys_jw.dwd_queue_error as t1
inner join  hurys_jw.dwd_queue as t2
on t1.id=t2.id and t1.device_no=t2.device_no
where t1.id is not null --and t1.create_time > ?
group by t1.device_no,  t1.id, t1.create_time,  t1.day
;

四、Kettle任务

由于修复记录必须是数据完成修复后执行,但是又不能每天执行一次,因为数据修复任务最后会删除错误数据表当天分区数据

4.1 newtime 2

4.2 替换NULL值 2

4.3 clickhouse输入 2

select
       '6' data_type,
       t1.device_no,
       t1.id,
       t1.create_time,
       '1' record_type,
       cast(t1.day as String) day
from hurys_jw.dwd_queue_error as t1
inner join  hurys_jw.dwd_queue as t2
on t1.id=t2.id and t1.device_no=t2.device_no
where t1.id is not null  and t1.create_time > ?
group by t1.device_no,  t1.id, t1.create_time,  t1.day
;

4.4 字段选择 2

4.5 clickhouse输出 2

4.6 执行任务

修复记录和数据修复任务放在一个kettle任务里


http://www.kler.cn/a/374177.html

相关文章:

  • 记录一次面试中被问到的问题 (HR面)
  • MFC读写文件实例
  • 这是什么操作?强制迁移?GitLab 停止中国区用户访问
  • nginx 日志规范化意义及实现!
  • Solidity合约编写(五)
  • 【HarmonyOS NEXT】鸿蒙应用使用后台任务之长时任务,解决屏幕录制音乐播放等操作不被挂起
  • 20.04Ubuntu搭建Vscode
  • Nature Electronics 用于语音识别的液体声传感器,基于悬浮在载液的钕-铁-硼磁性纳米颗粒
  • AI内容生成器 V1.6 WordPress插件 基于AI生成内容 Openai Content Generator
  • 数据结构-希尔排序(ShellSort)笔记
  • 重新架构:从 Redis 到 SQLite 性能提升
  • MySQL基本用法
  • 经典面试题收集(持续更新)
  • 基于人脸识别PCA算法matlab实现及详细步骤讲解
  • 面试题整理 3
  • 我自己的资料整理导引(三):文本格式基础
  • C++算法练习-day29——104.二叉树的最大深度
  • Java基础3-字符串及相关操作
  • 使用正则表达式验证积累
  • springSecurity入门(5.7版本之前)
  • 各种语言的列表推导式与三元?表达式,C++,python,rust,swift,go
  • ubuntu20.04 加固方案-设置重复登录失败后锁定时间限制
  • flutter_vscode常用快捷键
  • Spring Boot租房管理系统:功能实现与优化
  • 美团嵌入式面试题及参考答案(无人机团队)
  • 云-转录组平台升级解锁更多实用交互式功能