Hive:UDTF 函数
在 Apache Hive 中,UDTF(User-Defined Table Generating Functions)是一种特殊的用户定义函数。提供了多种内置的 UDTF 函数,用于处理复杂的字符串和数据结构,以及用户可以编写自定义的 UDTF。
这些函数包括:
explode
和posexplode
:用于拆分数组或映射。json_tuple
和get_json_object
:用于处理 JSON 格式的数据。parse_url_tuple
:用于处理 URL 格式的数据。inline
:用于拆分嵌套的数组或映射。stack:
将多个值堆叠成多行。
常见的内置 UDTF
-
explode
- 用途:将数组或映射中的每个元素拆分成独立的行。
- 语法:
explode(array|map)
- 示例:
select id, value from src lateral view explode(array_column) exploded_table as value;
-
posexplode
- 用途:类似于
explode
,但同时生成每个元素的位置索引。 - 语法:
posexplode(array|map)
- 示例:
select id, pos, value from src lateral view posexplode(array_column) exploded_table as pos, value;
- 用途:类似于
-
inline
- 用途:将数组中的每个元素(假设每个元素是一个数组或映射)拆分成独立的行。
- 语法:
inline(array<struct>)
- 示例:
select id, col1, col2 from src lateral view inline(array_column) exploded_table as col1, col2;
-
stack
- 用途:将多个值堆叠成多行。
- 语法:
stack(n, expr1, expr2, ...)
- 示例:
select * from (select stack(2, 'a', 1, 'b', 2)) tmp;
json_tuple
- 用途:从 JSON 字符串中提取多个字段。
- 语法:
json_tuple(json_string, field1, field2, ...)
- 示例:
select id, name, age from src lateral view json_tuple(json_column, 'name', 'age') jt as name, age;
- 语法:
-
get_json_object
- 用途:从 JSON 字符串中提取单个字段。
- 语法:
get_json_object(json_string, path)
- 示例:
select id, get_json_object(json_column, '$.name') as name from src;
-
parse_url_tuple
- 用途:从 URL 字符串中提取多个字段。
- 语法:
parse_url_tuple(url, part1, part2, ...)
- 示例:
select id, scheme, host, path from src lateral view parse_url_tuple(url_column, 'scheme', 'host', 'path') pu as scheme, host, path;