当前位置: 首页 > article >正文

CnosDB 实时流式计算:优化时序数据处理与降采样解决方案

在处理时序数据时,数据写入周期通常与数据采集设备的频率相关,有时每秒钟就需要处理大量的数据点。长时间处理如此多的数据会导致存储问题。一个有效的解决方案是使用流式计算,将原始数据进行降采样。

流式计算在时序数据库中指对实时数据流进行计算和处理,以便在数据到达时立即得到计算结果。通过流式计算,我们可以实时地对数据进行处理,例如降采样、聚合、过滤等操作,从而减少数据存储量,并获得实时的统计信息。

流式计算的基本原理是通过对实时数据流进行处理,生成所需的计算结果。例如,将每分钟的数据点合并为每小时的数据点。合并过程可以使用各种统计方法,如最大值、平均值、总和等。

CnosDB 提供了 STREAM 类型的表,用于处理流式数据计算。流查询要求 SELECT 函数中必须包含 GROUP BY time()子句。通过流查询,我们可以实时地对数据进行处理,并将结果存储到目标表中。这在其他数据库中的概念类似物化视图。

创建 CnosDB Stream 表的语法为:

需要一个 source 表,STREAM 表不支持 ALTER

CREATE STREAM TABLE [IF NOT EXISTS] table_name[(field_definition [, field_definition] ...)]
    WITH (db = 'db_name', table = 'table_name', event_time_column = 'time_column')
    engine = tskv;

field_definition: 
    column_name data_type

以下是一个示意图,展示了流式计算中的降采样过程:

实现步骤

前置条件:

需要有一个用于流计算的原始表,通过流表视图可以实时收到原表中写入的数据,在流表中建立的流计算定时任务会定时执行,处理原表中的数据,并将其写入目标表。

以下示例使用 CnosDB 中 快速开始 中的示例数据:

\w oceanic_station.txt

1. 创建流表视图

首先,需要创建一个 流表视图 air_stream,该视图从原始表 air 中读取数据,并在流查询中使用。

CREATE STREAM TABLE air_stream(
    time TIMESTAMP,
    station STRING,
    pressure DOUBLE,
    temperature DOUBLE,
    visibility DOUBLE
) 
WITH (
    db = 'oceanic_station', 
    table = 'air', 
    event_time_column = 'time'
)
engine = tskv;

2. 创建目标表

然后,创建一个目标表 air_down_sampling_1hour,用于存储降采样后的数据。

CREATE TABLE air_down_sampling_1hour(
    max_pressure DOUBLE, 
    avg_temperature DOUBLE, 
    sum_temperature DOUBLE, 
    count_pressure BIGINT, 
    TAGS(station)
);

3. 执行流查询并将结果插入目标表

通过流查询将降采样后的数据插入到目标表中。该查询每小时计算一次压力的最大值、温度的平均值、温度的总和以及数据行数。

INSERT INTO air_down_sampling_1hour(
    time, 
    station, 
    max_pressure, 
    avg_temperature, 
    sum_temperature, 
    count_pressure
) 
SELECT 
    date_bin(INTERVAL '1' HOUR, time, TIMESTAMP '2023-01-14T16:00:00') time, 
    station, 
    MAX(pressure) max_pressure, 
    AVG(temperature) avg_temperature, 
    SUM(temperature) sum_temperature, 
    COUNT(pressure) count_pressure 
FROM air_stream 
GROUP BY date_bin(INTERVAL '1' HOUR, time, TIMESTAMP '2023-01-14T16:00:00'), station;

4. 查询降采样结果

当原表中有数据写入后,通过流表视图中任务可以实时计算,并写入目标表 air_down_sampling_1hour中,查看降采样后的数据。

SELECT * FROM air_down_sampling_1hour LIMIT 10;

以上查询将收到以下结果:以上查询将收到以下结果:


    +---------------------+------------+--------------+-----------------+-----------------+----------------+
    | time                | station    | max_pressure | avg_temperature | sum_temperature | count_pressure |
    +---------------------+------------+--------------+-----------------+-----------------+----------------+
    | 2023-01-14T16:00:00 | XiaoMaiDao | 80.0         | 68.05           | 1361.0          | 20             |
    | 2023-01-14T17:00:00 | XiaoMaiDao | 79.0         | 63.75           | 1275.0          | 20             |
    | 2023-01-14T18:00:00 | XiaoMaiDao | 79.0         | 66.35           | 1327.0          | 20             |
    | 2023-01-14T19:00:00 | XiaoMaiDao | 78.0         | 68.05           | 1361.0          | 20             |
    | 2023-01-14T20:00:00 | XiaoMaiDao | 80.0         | 64.35           | 1287.0          | 20             |
    | 2023-01-14T21:00:00 | XiaoMaiDao | 77.0         | 61.05           | 1221.0          | 20             |
    | 2023-01-14T22:00:00 | XiaoMaiDao | 80.0         | 64.8            | 1296.0          | 20             |
    | 2023-01-14T23:00:00 | XiaoMaiDao | 80.0         | 66.35           | 1327.0          | 20             |
    | 2023-01-15T00:00:00 | XiaoMaiDao | 80.0         | 65.15           | 1303.0          | 20             |
    | 2023-01-15T01:00:00 | XiaoMaiDao | 80.0         | 69.55           | 1391.0          | 20             |
    +---------------------+------------+--------------+-----------------+-----------------+----------------+

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://cn.cnosdb.com

 


http://www.kler.cn/a/400899.html

相关文章:

  • 【git】git取消提交的内容,恢复到暂存区
  • JavaScript 原型
  • 【EasyExcel】复杂导出操作-自定义颜色样式等(版本3.1.x)
  • 机器学习(西瓜书)-BP神经网络实现
  • 两大新兴开发语言大比拼:Move PK Rust
  • std::sort的底层原理(混合排序算法)
  • SpringBoot创建Cookie工具类实现Cookie的:写入、读取、删除
  • 用c++做游戏开发至少要掌握哪些知识?
  • 人工智能技术颠覆未来生活
  • 【Rust调用Windows API】读取系统CPU利用率
  • Vue3 目录结构
  • Vue3.0 + Ts:动态设置style样式 ts 报错
  • 数据库审计工具--Yearning 3.1.9普民的使用指南
  • 卡尔曼滤波学习资料汇总
  • Spring Security 核心组件
  • ArcGIS Pro ADGeoDatabase DAML
  • Git提交时如何排除bin、obj目录
  • 新手小白学习docker第六弹------Docker常规安装(安装tomcat、mysql、redis)
  • 鸿蒙NEXT自定义组件:太极Loading
  • 使用 Keras 训练一个循环神经网络(RNN)
  • Spring MVC前后端数据传输项目实践
  • 【nginx】client timed out和send_timeout的大小设置
  • Python模块、迭代器、正则表达式
  • redis服务启动windows客户端操作 (双开)
  • ETH钱包地址如何获取 如何购买比特币
  • PHP Switch 语句