当前位置: 首页 > article >正文

大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(正在更新…)

章节内容

上节我们完成了如下的内容:

  • 通过两篇来完成 集群模式配置、集群模式启动

在这里插入图片描述

基本介绍

Apache Druid 从 Kafka 中获取数据并进行分析的流程通常分为以下几个步骤:

  • Kafka 数据流的接入: Druid 通过 Kafka Indexing Service 直接从 Kafka 中摄取实时流数据。Kafka 是一个高吞吐量的消息队列,适合处理大量实时数据。Druid 会订阅 Kafka 的 topic,每当新数据到达时,它会自动从 Kafka 中读取数据。

  • 数据解析与转换: 数据从 Kafka 进入 Druid 后,首先会进行数据解析,通常采用 JSON、Avro 或 CSV 格式。解析的过程中,Druid 可以根据预定义的 schema 进行字段映射、过滤和数据转换,比如将字符串转为数值类型、提取时间戳等。这一步允许对数据进行初步处理,比如数据清洗或格式化。

  • 实时数据摄取与索引: Druid 将解析后的数据放入一个实时索引中,同时也将数据存储在内存中。Druid 的一个核心特点是,它会为每条记录生成倒排索引和 bitmap 索引,这样可以大大加快查询速度。实时摄取的数据在内存中保存一段时间,直到满足一定条件(比如时间或数据量),然后会以段的形式写入深度存储(如 HDFS 或 S3)。

  • 批处理与历史数据合并: Druid 支持实时和批处理的混合模式。当实时摄取的数据段被持久化到深度存储后,Druid 可以自动将这些段与批处理数据合并。这种设计确保了在数据分析时,既能查询到最新的实时数据,也能访问历史数据。批处理数据可以通过 Hadoop 或 Spark 等框架预先批量加载到 Druid 中。

  • 数据分片与副本管理: Druid 支持水平扩展,通过分片将数据分布在多个节点上。每个分片可以有多个副本,这样可以保证系统的高可用性和容错性。通过负载均衡,Druid 可以有效处理大规模查询请求,尤其是在数据量非常大的情况下。

  • 查询与分析: Druid 的查询系统基于 HTTP/JSON API,支持多种类型的查询,如时间序列查询、分组聚合查询、过滤查询等。Druid 的查询引擎设计非常高效,可以处理大规模的 OLAP(在线分析处理)查询。由于 Kafka 中的数据是实时流式的,Druid 的查询结果通常可以反映出最新的业务指标和分析结果。

  • 可视化与监控: Druid 的数据可以与 BI 工具(如 Superset、Tableau)集成,生成实时的报表和仪表盘。用户可以通过这些可视化工具,实时监控业务指标,做出数据驱动的决策。

整个流程中,Druid 负责将 Kafka 中的数据转化为高效的、可查询的 OLAP 格式,并且通过索引和分布式架构实现高效查询。这个系统可以被广泛应用于实时监控、用户行为分析、金融交易分析等场景。

从Kafka中加载数据

典型架构

在这里插入图片描述

日志业务中,我们不会在Druid中处理复杂的数据转换清晰工作

案例测试

假设有以下网络流量数据:

  • ts:时间戳
  • srcip:发送端IP地址
  • srcport:发送端端口号
  • dstip:接收端IP地址
  • dstport:接收端端口号
  • protocol:协议
  • packets:传输包
  • bytes:传输的字节数
  • cost: 传输耗费的时间

数据是JSON格式,通过Kafka传输
每行数据包含:

  • 时间戳
  • 维度列
  • 指标列

需要计算的指标:

  • 记录的条数:count
  • packets:max
  • bytes:min
  • cost:sum

数据汇总粒度:分钟

测试数据

{"ts":"2020-10-01T00:01:35Z","srcip":"6.6.6.6", "dstip":"8.8.8.8", "srcport":6666,"dstPort":8888, "protocol": "tcp", "packets":1, "bytes":1000, "cost": 0.1}

{"ts":"2020-10-01T00:01:36Z","srcip":"6.6.6.6", "dstip":"8.8.8.8", "srcport":6666,"dstPort":8888, "protocol": "tcp", "packets":2, "bytes":2000, "cost": 0.1}

{"ts":"2020-10-01T00:01:37Z","srcip":"6.6.6.6", "dstip":"8.8.8.8", "srcport":6666,"dstPort":8888, "protocol": "tcp", "packets":3, "bytes":3000, "cost": 0.1}

{"ts":"2020-10-01T00:01:38Z","srcip":"6.6.6.6", "dstip":"8.8.8.8", "srcport":6666,"dstPort":8888, "protocol": "tcp", "packets":4, "bytes":4000, "cost": 0.1}

{"ts":"2020-10-01T00:02:08Z","srcip":"1.1.1.1", "dstip":"2.2.2.2", "srcport":6666,"dstPort":8888, "protocol": "udp", "packets":5, "bytes":5000, "cost": 0.2}

{"ts":"2020-10-01T00:02:09Z","srcip":"1.1.1.1", "dstip":"2.2.2.2", "srcport":6666,"dstPort":8888, "protocol": "udp", "packets":6, "bytes":6000, "cost": 0.2}

{"ts":"2020-10-01T00:02:10Z","srcip":"1.1.1.1", "dstip":"2.2.2.2", "srcport":6666,"dstPort":8888, "protocol": "udp", "packets":7, "bytes":7000, "cost": 0.2}

{"ts":"2020-10-01T00:02:11Z","srcip":"1.1.1.1", "dstip":"2.2.2.2", "srcport":6666,"dstPort":8888, "protocol": "udp", "packets":8, "bytes":8000, "cost": 0.2}

{"ts":"2020-10-01T00:02:12Z","srcip":"1.1.1.1", "dstip":"2.2.2.2", "srcport":6666,"dstPort":8888, "protocol": "udp", "packets":9, "bytes":9000, "cost": 0.2}

写入的数据如下所示:
在这里插入图片描述

启动Kafka

这里由于资源比较紧张,我就只启动一台Kafka了:
我在 h121 节点上启动

kafka-server-start.sh /opt/servers/kafka_2.12-2.7.2/config/server.properties

创建 Topic

kafka-topics.sh --create --zookeeper h121.wzk.icu:2181 --replication-factor 1 --partitions 1 --topic druid1

推送消息

kafka-console-producer.sh --broker-list h121.wzk.icu:9092 --topic druid1

输出我们刚才的数据,一行一行的写入输入进行(后续要用)。

提取数据

浏览器打开我们之前启动的Druid服务

http://h121.wzk.icu:8888/

LoadData

点击控制台中的 LoadData 模块:
在这里插入图片描述

Streaming

选择 Streaming:
在这里插入图片描述

Kafka

继续选择Kafka,点击 ConnectData,在右侧输入对应的信息,点级Apply:

  • h121.wzk.icu:9092
  • druid1

在这里插入图片描述

ParserData

此时可以看到右下角有:Next: Parse Data:
在这里插入图片描述
数据虽然加载了,但是格式不对,我们在右侧选择:JSON:
在这里插入图片描述

点击之后,可以看到,(如果你解析不顺利,可以用这个尝试)点击 Add column flattening
在这里插入图片描述
如果正常解析,数据应该是这个样子:
在这里插入图片描述

ParserTime

继续点击 Next Parse Time:
在这里插入图片描述

Transform

继续点击 Next Transform:

  • 不建议在Druid中进行复杂的数据变化操作,可考虑将这些操作放在数据预处理的过程中处理
  • 这里没有定义数据转换

在这里插入图片描述

Filter

继续点击 Next Filter:

  • 不建议在Druid中进行复杂的数据过滤操作,可以考虑将这些操作放在数据预处理中
  • 这里没有定义数据过滤

在这里插入图片描述

Configuration Schema

点击 Next Configuration Schema:

  • 定义指标列、维度列
  • 定义如何在维度列上进行计算
  • 定义是否在摄取数据时进行数据的合并(即RollUp),以及RollUp的粒度

在这里插入图片描述
此时点击右侧的:RollUp,会看到数据被聚合成了两条:
在这里插入图片描述
聚合结果:
在这里插入图片描述

Partition

点击 Next Partition:

  • 定义如何进行数据分区
  • Primary partitioning 有两种方式:
  • 方式1:uniform,以一个固定的时间间隔聚合函数数据,建议使用这种方式,这里将每天的数据作为一个分区
  • 方式2:arbitary,尽量保证每个 segements大小一致,时间间隔不固定
  • Secondary Partitioning
  • 参数1:Max rows per segment,每个Segment最大的数据条数
  • 参数2:Max total rows,Segment等待发布的最大数据条数

在这里插入图片描述

Tune

点击 Next Tune:

  • 定义任务执行和优化相关的参数

在这里插入图片描述

Publish

点击 Next Publish:

  • 定义Datasource的名称
  • 定义数据解析失败后采取的动作

在这里插入图片描述

Edit Special

点击 Next Edit spec:

  • JSON串为数据摄取规范,可返回之前的步骤中进行修改,也可以直接编辑规范内容,并在之前的步骤可以看到修改的结果
  • 摄取规范定义完成后,点击Submit会创建一个数据摄取的任务

在这里插入图片描述

Submit

点击 Submit 按钮:

在这里插入图片描述

数据查询

  • 数据摄取规范发布后生成Supervisor
  • Supervisor会启动一个Task,从kafka中摄取数据
    需要等待一段时间,Datasource才会创建完毕,选择 【Datasources】板块:
    在这里插入图片描述

点击末尾的三个小圆点,选择 Query With SQL:
在这里插入图片描述

会出现如下的界面,我们写入SQL,并运行:

SELECT 
	*
FROM 
	"druid1"

执行结果如下图:
在这里插入图片描述

数据摄取规范

{
  "type":"kafka",
  "spec":{
    "ioConfig":Object{...},
    "tuningConfig":Object{...},
    "dataSchema":Object{...}
  }
}
  • dataSchema:指定传入数据的Schema
  • ioConfig:指定数据的来源和去向
  • tuningConfig:指定各种摄取参数

http://www.kler.cn/a/329933.html

相关文章:

  • 软件授权管理中的软件激活向导示例
  • JVM类加载器(附面试题)
  • DNS解析域名简记
  • 最左前缀匹配原则
  • dockerfile实现lnmp
  • 七大排序算法(Java,便于理解)
  • JavaScript---BOM,DOM 对象
  • QT系统学习篇(3)- Qt开发常用算法及控件原理
  • 森林火灾检测数据集 7400张 森林火灾 带标注 voc yolo
  • 【计算机网络】传输层UDP和TCP协议
  • HarmonyOS鸿蒙 Next 实现协调布局效果
  • MySQL踩坑点:字符集和排序规则
  • 架构视图和视角
  • 【重学 MySQL】四十六、创建表的方式
  • 2024 全新体验:国学心理 API 接口来袭
  • ES索引生命周期管理
  • 一次oracle迁移11g到19c后用到的对象数量对比脚本
  • Golang 服务器虚拟化应用案例
  • Django学习笔记四:urls配置详解
  • Geoserver关于忘记密码的解决方法
  • 无头双向不循环链表的模拟
  • 千兆网络变压器HX84801SP POE应用主板
  • 秋招|面试|群面|求职
  • 服务架构的演进之路:从单体应用到Serverless
  • 【初阶数据结构】排序——归并排序
  • Stable Diffusion绘画 | 来训练属于自己的模型:打标处理与优化