clickhouse里的数组数据类型与相关使用介绍
文章目录
- clickhouse数组类型
- Array介绍
- 使用示例
- 包含查询
clickhouse数组类型
- clickhouse支持丰富的数据类型,给我们的数据存储和查询带来很多遍历。我比较喜欢的一种类型是数组类型,MySQL和PostgreSQL不支持这种数据结构,clickhouse提供了支持
- clickhouse支持以下数组类型:
- Array(T):其中T可以是任何有效的数据类型,例如Array(Int32),Array(String)等。
- FixedString(N):其中N表示固定的字符串长度,例如FixedString(10)表示固定长度为10的字符串数组。
- Nested:嵌套数组类型,可以用于表示复杂的数据结构。
- Tuple(T1, T2, …, Tn):定义一个元组数组,元组中包含n个元素,每个元素表示一个T类型的值。
- clickhouse数组类型可以用于存储和处理具有重复性质的数据。例如,一个包含学生姓名和他们所上的课程的数据集可以使用数组类型来处理课程名的多个条目。
Array介绍
- 本次主要介绍最传统的数组 Array(T),因为四种符合数组类型,我对Array(T)使用最多
- 想看官方文档的,可以去这里:官方社区参考文档
- Array(T)是一种将T类型的值组合成一个有序列表的数据结构,存储的数值类型必须是T
- 数组类型可以使用[]语法来表示,例如Int64[]就是一个由Int64类型值组成的数组
- 数组类型可以作为表中的一列数据类型,也可以嵌套在其他数据类型中使用,例如可以将Array(String)类型作为某个Tuple类型的一个字段,或者将Array(Tuple(Int32,String))类型作为某个表的一列
- 可以使用ClickHouse的函数来对数组类型进行操作,例如对数组进行聚合操作avg,对数组中的元素进行排序sort等
- ClickHouse还支持将数组中的元素拆分成多行,以便更方便地进行数据分析和处理
使用示例
ClickHouse支持数组类型Array(T),其中T可以是任何其他数据类型,例如Int32、Float64、String等。以下是一些常见的用法举例:
- 创建
Array
类型的列(这里可以使用Array(String)
,也可以使用String[]
):
CREATE TABLE mytable (
id Int32,
myarray Array(String)
) ENGINE = MergeTree()
ORDER BY id;
- 插入数据到
Array
类型的列:
INSERT INTO mytable VALUES (1, ['apple', 'banana', 'orange']), (2, ['cat', 'dog']);
- 查询包含
Array
类型的列:
SELECT id, myarray FROM mytable;
输出结果:
┌─id─┬─myarray─────────────────────┐
│ 1 │ ['apple','banana','orange'] │
│ 2 │ ['cat','dog'] │
└────┴─────────────────────────────┘
- 使用
arrayJoin
函数展开Array
类型的列(这个很常用,将数组值展开成多条记录,用于展示或者统计):
SELECT id, arrayJoin(myarray) FROM mytable;
输出结果:
┌─id─┬─arrayJoin(myarray)─┐
│ 1 │ apple │
│ 1 │ banana │
│ 1 │ orange │
│ 2 │ cat │
│ 2 │ dog │
└────┴────────────────────┘
- 使用
arrayMap
函数对Array类型的列进行映射:
SELECT id, arrayMap(x -> length(x), myarray) as lengths FROM mytable;
输出结果:
┌─id─┬─lengths─────┐
│ 1 │ [5,6,6] │
│ 2 │ [3,3] │
└────┴─────────────┘
这里使用arrayMap
函数对myarray中的每个元素应用length函数,得到数组长度的列表。
包含查询
- 对于数组类型Array(T),明白其具体含义后,使用起来并不复杂
- 像前文所说一样,创建表定义数组类型,插入时插入对应数组
- 显然,使用数组类型,主要是为了后面的查询功能,前面已经给出了
arrayJoin
函数和arrayMap
函数的简单举例 - 最后给出大家可能比较常用的包含查询函数,
indexOf
函数和has
函数,都是查询是否包含给定值,返回符合条件的列
SELECT * FROM signal_status ss where time_stamp = '2022-12-27 15:30:00' and indexOf(green_movement , 'EB:CROSSING') > 0;
SELECT * FROM signal_status ss where time_stamp = '2022-12-27 15:30:00' and has(green_movement , 'EB:CROSSING') = 1;