当前位置: 首页 > article >正文

dbt-codegen: dbt自动生成模板代码

dbt项目采用工程化思维,数据模型分层实现,支持描述模型文档和测试,非常适合大型数据工程项目。但也需要用户编写大量yaml描述文件,这个过程非常容易出错且无聊。主要表现:

  • 手工为dbt模型编写yaml文件,这过程可能会导致错误和拼写失误。
  • 手工编写yaml文件非常耗时,特别是在包括很多模型的大型项目中。
  • 当数据模型发生变化时,更新yaml文件可能是一件令人头痛的事情。
  • 确保所有yaml文件看起来一致,并遵循相同的最佳实践具有挑战性。

dbt-codegen简介

dbt-lab提供了 dbt-codegen工具包,实现一组宏,用于dbt代码并在命令行中输出结果。Codegen旨在为dbt模型自动生成YAML文件,解决与手动创建文件的痛点挑战。Codegen是如何解决这些问题的:

  • Codegen自动化YAML文件创建的整个过程。它基于dbt模型生成YAML配置,减少了手动干预的需要。这大大节省了时间,并最大限度地减少了错误的风险。

  • 通过自动生成YAML文件,Codegen确保了所有dbt模型的一致性和标准化。它遵循预定义的规则和模板,消除了配置差异的可能性。

  • Codegen具有高度可扩展性,允许你有效地管理许多dbt模型。随着数据转换需求的增长,Codegen适应规模,为处理众多模型和配置提供无缝解决方案。

实现过程如下:

Codegen通过分析dbt模型并提取相关信息以生成YAML文件,过程包括:

  • Codegen分析dbt模型,提取列名、数据类型和关系等细节。然后基于分析结果生成YAML配置,包括模型、列和关系。
  • Codegen应用预定义模板,确保标准化配置和一致性,最终输出是一组可以在dbt项目中使用的YAML文件配置信息。

完整功能列表:

  • generate_source (source)
  • generate_base_model (source)
  • create_base_models (source)
  • base_model_creation (source)
  • generate_model_yaml (source)
  • generate_model_import_ctes (source)

dbt-codegen实战

我们看到该包可用于为源和模型列表生成YAML,此外还可以用于为源的基本模型生成SQL。下面介绍几个常用的代码生成功能。读者可以在上文介绍的入门项目中测试。

安装

packages:  
  - package: dbt-labs/dbt_utils    
    version: 1.3.0  

  - package: dbt-labs/codegen    
    version: 0.12.1

运行dbt deps安装包。安装成功后,包文件将被安装到dbt_packages目录下。

示例1: 生成schema.yml

在命令行运行,直接输出到控制台:

dbt run-operation generate_source --args 'schema_name: shop'

# 多个参数
dbt run-operation generate_source --args '{"schema_name": "shop", "database_name": "raw", "table_names":["table_1", "table_2"]}'

也可以直接输出到文件:

dbt --quiet run-operation generate_source --args '{"table_names": ["orders"]}' > models/staging/jaffle_shop/_sources.yml

还可以编码方式执行,拷贝宏代码至DBT项目中, 因为是一次性任务,可以放置analysis 目录下, 然后编译代码:

{{ codegen.generate_source('raw_jaffle_shop') }}
# 包括多个参数
{{ codegen.generate_source(schema_name= 'jaffle_shop', database_name= 'raw') }}

生成结果大致如下:

version: 2

sources:
  - name: shop
    database: raw
    schema: shop
    tables:
      - name: customers
        description: ""
      - name: orders
        description: ""
      - name: payments
        description: ""

示例2: 生成模型yaml文件

  • model_names (required): The model(s) you wish to generate YAML for.
  • upstream_descriptions (optional, default=False): Whether you want to include descriptions for identical column names from upstream models and sources.
  • include_data_types (optional, default=True): Whether you want to add data types to your model column definitions.
dbt run-operation generate_model_yaml --args '{"model_names": ["customers"]}'

生成结果:

version: 2

models:
  - name: customers
    description: ""
    columns:
      - name: customer_id
        data_type: integer
        description: ""
      - name: customer_name
        data_type: text
        description: ""

当然也可以在analyse模型中编码方式生成:

{{ codegen.generate_model_yaml(
    model_names=['customers']
) }}

还可以使用辅助函数代码。Get_models并指定一个目录和/或前缀,以获得所有匹配模型的列表,这些模型将被传递到model_names列表中。

{% set models_to_generate = codegen.get_models(directory='marts', prefix='fct_') %}
{{ codegen.generate_model_yaml(
    model_names = models_to_generate
) }}

助手方法可以在源码中找到,请参考下面截图:
在这里插入图片描述

总结

本文介绍dbt-codegen工具,它可以帮助我们快速生成dbt模型描述文件、生成源等代码。我们介绍多种生成方式,包括命令行和分析模型代码等,有想法的读者还可以考虑编写vscode插件实现。更多示例及详细文档,可以参照官方文档。


http://www.kler.cn/news/360102.html

相关文章:

  • Lfsr32
  • Spring Boot HikariCP数据库连接池入门
  • 数据驱动时代:五款免费报表工具深度解析
  • 【无人机设计与控制】基于自组织多模态多目标鸽群优化算法MMOPIO求解无人机三维路径规划
  • 驱动精灵 v9.70.0.104 单文件纯净绿色版
  • 邦芒贴士:职场新人需远离的7种坏习惯
  • 【LeetCode】动态规划—2466. 统计构造好字符串的方案数(附完整Python/C++代码)
  • ubuntu linux安装nessus企业版
  • 【SpringCloud】05-配置中心
  • 微信小程序——消息订阅
  • Spring Boot项目中怎么设置内容安全策略Content Security Policy
  • C++题集
  • ICRA@40 周年大会:多指手既可抓取,又可以变成多足机器人
  • [openwrt-21.02]openwrt-21.02 增加固件编译日期时间及git记录到openwrt_release文件
  • 【微信小程序_15_下拉刷新与上拉触底】
  • JavaScript中实现十进制转二进制算法
  • 1020接口测试面试题随记
  • golang的数组、slice和map
  • 【专题】数据库编程
  • 人工智能技术的应用前景及其对生活和工作方式的影响