当前位置: 首页 > article >正文

实时数据开发|Flink实现数据输出--DataSinks操作

哇哦,又是快乐周五!今天主管又又又请我们喝奶茶了,是乐乐茶的草莓新品。甜甜的草莓配上糯叽叽的麻薯,喝完好满足。这应该不是什么加班信号吧哈哈哈,不加不加周五要回家。

前几天被不同的bug缠身,今天终于正式开始学习实时任务迁移(Blink–>Flink),同事给了我一个她迁移完成的任务,让我熟悉整个流程。迁移的实时任务主要分三个部分,一个是输入表,用source结尾;一个中间维表,用dim开头,一个输出表,sink结尾。同时要把实时任务的上游实时数据流也一起迁移。整个迁移过程不需要自增太多代码,主要是在Flink打通实时数据流,但是有很多细节需要注意。下周再学习如何查看日志,进行任务调试。

感觉实时任务和离线有蛮大不同的,期待后续有机会做完整的实时数据开发。

–学习区–

DataSinks 数据输出

经过各种数据 Transformation操作后,最终形成用户需要的结果数据集。通常情况用户希望将结果数据输出在外部存储介质或者传输到下游的消息中间件内,在Flink中将DataStream数据输出到外部系统的过程被定义为DataSink操作。在Flink内部定义的第三方外部系统连接器中,支持数据输出的有Apache Kafka、Apache Cassandra Kinesis、Hadoop FileSystem等。也可以使用第三方Connector,需要加入相应依赖。

1.基本数据输出

基本数据输出包含了文件输出、客户端输出、Socket网络端口等,这些输出方法经在Fink Datasmeam API中完成定义,使用过程不需要依赖其他第三方的库。

2.第三方数据输出

通常情况下,基于Flink提供的基本数据输出方式并不能完全地满足现实场景的需要,用户一般都会有自己的存储系统,因此需要将Flink系统中计算完成的结果数据通过第三方连接器输出到外部系统中。Flink中提供了DataSink类操作算子来专门处理数据的输出,所有的数据输出都可以基于实现SinkFunction完成定义。例如在Flink中定义了Flink Kafka Producer类来完成将数据输出到Kafka的操作,需要根据不同的Kafka 版本需要选择。


http://www.kler.cn/a/417071.html

相关文章:

  • 家庭打印机如何连接电脑
  • Python学习第十天--处理CSV文件和JSON数据
  • 【CSS in Depth 2 精译_061】9.4 CSS 中的模式库 + 9.5 本章小结
  • YOLO系列论文综述(从YOLOv1到YOLOv11)【第3篇:YOLOv1——YOLO的开山之作】
  • 广域网技术
  • 现代应用程序中基于 Cell 架构的安全防护之道
  • 实现PDF文档加密,访问需要密码
  • vue.js学习 (day 15)
  • 量化交易系统开发-实时行情自动化交易-8.2.发明者FMZ平台
  • rabbitMq两种消费应答失败处理方式
  • 制作苹果IOS.APP所使用步骤和方法-有步骤视情况待完善
  • 三维渲染中顺序无关的半透明混合(OIT)(二——Stencil Route)
  • 电脑文件自动提取器介绍
  • WEB攻防-通用漏洞XSS跨站绕过修复http_onlyCSP标签符号
  • 计算机毕业设计Python异常流量检测 流量分类 流量分析 网络流量分析与可视化系统 网络安全 信息安全 机器学习 深度学习
  • 家校通小程序实战教程04教师管理
  • 【DB】根据某字段生成序号
  • 一万台服务器用saltstack还是ansible?
  • 倍思无线蓝牙耳机测评:“静”只是它的闪光点之一!
  • Doge东哥wordpress主题
  • 爬虫XPath相关
  • Android笔记(三十四):封装带省略号图标结尾的TextView
  • 电机瞬态分析基础(6):坐标变换(续)
  • 从0到1搭建webpack
  • ESLint 配置文件全解析:格式、层叠与扩展(3)
  • 将大模型指令微调数据从parquet转为json格式