当前位置：首页 > article >正文

Flink流批一体计算（21）：Flink SQL之Flink DDL

article 2024/11/14 22:52:23

执行 CREATE 语句

Python脚本

Java代码

SQL语句

列定义

物理/常规列

元数据列

计算列

WATERMARK

PRIMARY KEY

PARTITIONED BY

AS select_statement

Flink SQL是为了简化计算模型、降低您使用Flink门槛而设计的一套符合标准SQL语义的开发语言。

执行 CREATE 语句

Python脚本

table_env = TableEnvironment.create(...)

# 对已经注册的表进行 SQL 查询

# 注册名为 “Orders” 的表

table_env.execute_sql("CREATE TABLE Orders (`user` BIGINT, product STRING, amount INT) WITH (...)");

# 在表上执行 SQL 查询，并把得到的结果作为一个新的表

result = table_env.sql_query(

  "SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'");

# 对已注册的表进行 INSERT 操作

# 注册 TableSink

table_env.execute_sql("CREATE TABLE RubberOrders(product STRING, amount INT) WITH (...)")

# 在表上执行 INSERT 语句并向 TableSink 发出结果

table_env \

    .execute_sql("INSERT INTO RubberOrders SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'")

Java代码

Environmentsettings settings = Environmentsettings.newInstance()...

TableEnvironment tableEnv = TableEnvironment.create(settings);



// 对已注册的表进行 SQL 查询

// 注册名为 “Orders” 的表

tableEnv.executeSql("CREATE TABLE Orders (`user` BIGINT, product STRING, amount INT) WITH (...)");

// 在表上执行 SQL 查询，并把得到的结果作为一个新的表

Table result = tableEnv.sqlQuery(

  "SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'");



// 对已注册的表进行 INSERT 操作

// 注册 TableSink

tableEnv.executeSql("CREATE TABLE RubberOrders(product STRING, amount INT) WITH (...)");

// 在表上执行 INSERT 语句并向 TableSink 发出结果

tableEnv.executeSql(

  "INSERT INTO RubberOrders SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'");

SQL语句

Flink SQL> CREATE TABLE Orders (`user` BIGINT, product STRING, amount INT) WITH (...);

[INFO] Table has been created.



Flink SQL> CREATE TABLE RubberOrders (product STRING, amount INT) WITH (...);

[INFO] Table has been created.



Flink SQL> INSERT INTO RubberOrders SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%';

[INFO] Submitting SQL update statement to the cluster...

列定义

物理/常规列

物理列是数据库中已知的常规列。它们定义物理数据中字段的名称、类型和顺序。因此，物理列表示从外部系统读取和写入的有效数据。其他类型的列可以在物理列之间声明，但不会影响最终的物理模式。

以下语句创建一个仅包含常规列的表：

CREATE TABLE MyTable (

`user_id` BIGINT,

`name` STRING

) WITH (

...

);

元数据列

元数据列是SQL标准的扩展，元数据列由metadata关键字指示。例如，可以使用元数据列从Kafka记录读取时间戳，并将时间戳写入Kafka，以进行基于时间的操作。连接器和格式文档列出了每个组件的可用元数据字段。但是，在表的模式中声明元数据列是可选的。

以下语句创建一个表，其中包含引用元数据字段时间戳的附加元数据列：

CREATE TABLE MyTable (

`user_id` BIGINT,

`name` STRING,

`record_time` TIMESTAMP_LTZ(3) METADATA FROM 'timestamp' -- reads and writes a Kafka record's timestamp

) WITH (

'connector' = 'kafka'

...

);

每个元数据字段都由基于字符串的键标识，并具有文档化的数据类型。例如，Kafka连接器公开了一个元数据字段，该字段具有键时间戳和数据类型timestamp_LTZ（3），可用于读取和写入记录。

在上面的示例中，元数据列record_time成为表模式的一部分，可以像常规列一样进行转换和存储，为方便起见，如果列名应用作标识元数据键，则可以省略FROM子句。

CREATE TABLE MyTable (

`user_id` BIGINT,

`name` STRING,

`timestamp` TIMESTAMP_LTZ(3) METADATA -- use column name as metadata key

) WITH (

'connector' = 'kafka'

...

);

计算列

计算列是使用语法column_name AS Computed_column_expression生成的虚拟列。

计算列计算可以引用同一表中声明的其他列的表达式。可以访问物理列和元数据列。列本身不物理存储在表中。列的数据类型是从给定表达式自动派生的，不必手动声明。

例如，计算列可以定义为

CREATE TABLE MyTable (

`user_id` BIGINT,

`price` DOUBLE,

`quantity` DOUBLE,

`cost` AS price * quanitity, -- evaluate expression and supply the result to queries

) WITH (

'connector' = 'kafka'

...

);

Flink中通常使用计算列来定义CREATETABLE语句中的时间属性。

使用系统的PROCTIME（）函数，可以通过proc AS PROCIME（）轻松定义processing time属性。

Event time属性时间戳可以在WATERMARK声明之前预处理。例如，如果原始字段不是TIMESTAMP（3）类型或嵌套在JSON字符串中，则可以使用计算列。

`WATERMARK`

WATERMARK 定义了表的Event time属性，其形式为 WATERMARK FOR rowtime_column_name AS watermark_strategy_expression 。

rowtime_column_name 把一个现有的列定义为一个为表标记event time的属性。该列的类型必须为 TIMESTAMP(3)，且是 schema 中的顶层列，它也可以是一个计算列。

watermark_strategy_expression 定义了 watermark 的生成策略。它允许使用包括计算列在内的任意非查询表达式来计算 watermark ；表达式的返回类型必须是 TIMESTAMP(3)，表示了从 Epoch 以来的经过的时间。返回的 watermark 只有当其不为空且其值大于之前发出的本地 watermark 时才会被发出（以保证 watermark 递增）。每条记录的 watermark 生成表达式计算都会由框架完成。框架会定期发出所生成的最大的 watermark ，如果当前 watermark 仍然与前一个 watermark 相同、为空、或返回的 watermark 的值小于最后一个发出的 watermark ，则新的 watermark 不会被发出。 Watermark 根据 pipeline.auto-watermark-interval 中所配置的间隔发出。若 watermark 的间隔是 0ms ，那么每条记录都会产生一个 watermark，且 watermark 会在不为空并大于上一个发出的 watermark 时发出。