当前位置: 首页 > article >正文

大数据应用开发——实时数据采集

前言

大数据应用开发——实时数据采集

大数据应用开发——实时数据处理

        Flink完成Kafka中的数据消费,将数据分发至Kafka的dwd层中

        并在HBase中进行备份

大数据应用开发——数据可视化

hadoop,zookeeper要开启

目录

        题目

        准备一个Flume agent的配置文件

        创建、查看Kafka的Topic中(Topic名称为order,分区数为4)


题目

在主节点使用Flume采集实时数据生成器10050端口的socket数据,将数据存入到Kafka的Topic中(Topic名称为order,分区数为4),使用Kafka自带的消费者消费order(Topic)中的数据,将前2条数据的结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下;

准备一个Flume agent的配置文件
vi /usr/flume/conf/flume-kafka.conf
# 定义了agent a1 的一个source,名称为s1
a1.sources=s1
# 定义了agent a1 的一个sink,名称为k1
a1.sinks=k1
# 定义了agent a1 的一个channel,名称为c1
a1.channels=c1

# 指定了source s1 的类型为netcat
a1.sources.s1.type=netcat
# 指定了netcat source绑定的IP地址
a1.sources.s1.bind=localhost
# 指定了netcat source监听的端口号为10050
a1.sources.s1.port=10050

# 指定了sink k1 的类型为Kafka sink,用于将数据发送到Kafka集群
a1.sinks.k1.type=org.apache.flume.sink.kafka.KafkaSink
# 指定了Kafka sink发送数据的目标主题为order
a1.sinks.k1.kafka.topic=order
# 指定了Kafka集群的bootstrap服务器列表
a1.sinks.k1.kafka.bootstrap.servers=master:9092,slave1:9092,slave2:9092

# 指定了channel c1 的类型
a1.channels.c1.type=memory
# 设置了内存channel的容量为1000个事件,这是channel可以存储的最大事件数
a1.channels.c1.capacity=1000
# 设置了内存channel的事务容量为100个事件,这是channel在一次事务中可以处理的最大事件数
a1.channels.c1.transactionCapacity=100

# 将source s1 与channel c1 连接起来
a1.sources.s1.channels=c1
# 将sink k1 与channel c1 连接起来
a1.sinks.k1.channel=c1
创建、查看Kafka的Topic中(Topic名称为order,分区数为4)
# 可以用jps查看Kafka有没有启动,没有启动可以运行此命令
/usr/kafka/bin/kafka-server-start.sh -daemon /usr/kafka/config/server.properties

# 查看Kafka中所有已创建的Topics
/usr/kafka/bin/kafka-topics.sh --zookeeper master:2181 --list

# 在Kafka中创建一个新的Topic为order,分区数为4
/usr/kafka/bin/kafka-topics.sh --create --topic order --partitions 4 --replication-factor 1 --zookeeper master:2181

# 查看Kafka中所有已创建的Topics
/usr/kafka/bin/kafka-topics.sh --zookeeper master:2181 --list

# 使用flume-kafka.conf配置文件,在/usr/flume/conf/配置目录下,启动一个名为a1的Flume agent,并将日志级别设置为INFO,输出到控制台
/usr/flume/bin/flume-ng agent -n a1 -c conf/ -f /usr/flume/conf/flume-kafka.conf -Dflume.root.logger=INFO,console

# 启动Kafka的消费者,它允许你从指定的Topic中读取消息并显示在控制台上,最大消息数2条
/usr/kafka/bin/kafka-console-consumer.sh --bootstrap-server master:9092 --topic order --from-beginning --max-messages 2

http://www.kler.cn/a/393348.html

相关文章:

  • 面试突击-JAVA集合类(持续更新...)
  • flask后端开发(11):User模型创建+注册页面模板渲染
  • 数学建模助力干细胞研究,配体纳米簇如何影响干细胞命运
  • C++的内存四区
  • 排序算法之快速排序、归并排序
  • Gmsh有限元网格剖分(Python)---点、直线、平面的移动
  • 外星人入侵
  • python成长技能之网络编程
  • HarmonyOS的@State装饰器的底层实现
  • elasticsearch实战应用理论实践!2W字带你全部了解elasticsearch
  • UNIX 域套接字
  • 【3D Slicer】的小白入门使用指南四
  • AIoT的协同计算
  • 解锁数据世界:从基础到精通的数据库探索之旅
  • Unity URP自定义后处理系统
  • SQL:给数据表字段拼接字符串
  • HarmonyOS和OpenHarmony区别是什么?鸿蒙和安卓IOS的区别是什么?
  • 除了防盗,特力康智能窨井盖还能监测井下环境吗?具体都监测些什么?
  • A029-基于Spring Boot的物流管理系统的设计与实现
  • 【Chapter 3】Machine Learning Classification Case_Prediction of diabetes-XGBoost
  • AI写作(四)预训练语言模型:开启 AI 写作新时代(4/10)
  • docker desktop es windows解决vm.max_map_count [65530] is too low 问题
  • CSS: Clearing Floats with Overflow
  • vue3项目初始化完整流程,vue3+TypeScript+vue-router+pinia+element-plus+axios+unocss+mock
  • SQL 外连接
  • 【go从零单排】Regular Expressions正则表达式