当前位置: 首页 > article >正文

离线电商数仓(三)

动态分区

通过数据本身的字段信息将普通表数据信息按照分区表的形式存放到不同分区目录下。

  1. 开启非严格模式
  2. 插入数据:insert into table dep_partition partition(day) select deptno, dname, loc, day from dept;
  3. 截取最后一列作为分区目录命令,将数据拆分到不同目录中。

用户维度表

拉链表:带有start_date起始日期, end_date最终日期的表,用来存储过期数据和最新数据。
首日导入:将dt写死为9999-06-08
每日导入:end_date最新更新数据放到9999-06-08分区,start_date开始时间为当天的日期。为了保存end_date数据,可以将最后一列的数据复制,多加一行。

dwd层购物车加购增量表

  1. 拿到新增及变化,过滤掉删除
  2. desc 表名,查看字段的具体类型
  3. 使用map_keys(old)获取map类型字段的所有key,并存放到数组中
  4. map结构如何获取value值, value = map[key]
  5. 加购时间建议使用ts的值,之后使用from_utc_timestamp(ts,‘GMT+8’), 转换为东八区时间。
  6. sku_num的值需要考虑该次行为是插入操作还是修改操作,如果是修改操作sku_num = sku_num - old[‘sku_num’]

http://www.kler.cn/a/106235.html

相关文章:

  • 低代码可视化-转盘小游戏可视化-代码生成器
  • 开发环境搭建-1:配置 WSL (类 centos 的 oracle linux 官方镜像)
  • MySQL查询LONG BLOB类型数据的大小
  • docker 部署.netcore应用优势在什么地方?
  • 简识JVM栈帧中的操作数栈
  • Swift语言的学习路线
  • 算法通关村第三关-青铜挑战数组专题
  • Golang Websocket框架:实时通信的新选择
  • SLAM从入门到精通(lidar的运动畸变矫正)
  • 【springboot单元测试,集成测试】
  • FLStudio21完整版编曲软件多少钱?要不要购买
  • 【电路笔记】-电路中的复数与相量(Phasor)
  • uni-app配置微信开发者工具
  • Java练习题2021-4
  • C#开发的IEnumerable接口
  • 将安全作为首要目标 — Venus 的现状和前景展望
  • 【c++】打家劫舍(动态规划)
  • 嵌入式实时操作系统的设计与开发(信号量学习)
  • 模型调参优化
  • 一文拿捏内网穿透利器之frp(反向代理软件相关)
  • 【linux】安装rpmrebuild
  • CDR和AI哪个软件更好用?
  • 多线程---认识线程
  • 使用 Visual Studio Code 编写 TypeScript程序
  • 内存-虚拟地址到物理内存地址转换
  • 【数据结构初阶】顺序表和链表(1)