当前位置：首页 > article >正文

大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器

article 2024/9/20 9:27:14

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（正在更新！）

章节内容

上节完成了如下的内容：

Flink YARN 模式
YARN模式下申请资源
YARN模式下提交任务

在这里插入图片描述

DataStream API

主要分为3块：
● DataSource：程序的数据源输入，可以通过StreamExecutionEnvironment.addSource为程序添加数据源
● Transformation：具体的操作，它对一个或者多个输入源进行计算处理，比如Map、FlatMap、Filter操作等
● Sink：程序的输出，它可以把Transformation处理之后的数据输出到指定的存储介质中

Flink针对DataStream提供了大量已经实现的DataSource（数据源接口）。
下面来进行分析。

基于文件

readTextFile(path)：读取本地文件，文件遵循TextInputFormat逐行读取规则并返回
如果你是本地IDEA要读取HDFS，那你需要额外的依赖：

<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-hadoop-compatibility_2.11</artifactId>
  <version>1.11.1</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>2.9.2</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-hdfs</artifactId>
  <version>2.9.2</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>2.9.2</version>
</dependency>

基于Socket

socketTextStream：从Socket中读取数据，元素可以通过一个分割符号分开。

基于集合

fromCollection：通过Java的Collection集合创建一个数据流，集合中的所有元素必须是相同类型的。
如果满足一下条件，Flink将数据类型识别为POJO类型（并允许“按名称”字段引用）

该类是共有且独立的（没有非静态内部类）
该类有共有的无参构造方法
类（及父类）中所有的不被static、transient修饰的属性要么是公有的且不被final修饰，要么是包含公有的Getter和Setter方法，这些方法遵循JavaBean的命名规范。

编写代码

编写的代码如下：

package icu.wzk;

import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment;

import java.util.ArrayList;
import java.util.List;

public class StreamFromCollection {

    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        List<People> peopleList = new ArrayList<>();
        peopleList.add(new People("wzk", 18));
        peopleList.add(new People("icu", 15));
        peopleList.add(new People("wzkicu", 10));

        DataStreamSource<People> data = env.getJavaEnv().fromCollection(peopleList);
        SingleOutputStreamOperator<People> filtered = data.filter(new FilterFunction<People>() {
            @Override
            public boolean filter(People value) throws Exception {
                return value.getAge() > 15;
            }
        });
        filtered.print();
        env.execute("StreamFromCollection");
    }

    public static class People {

        private String name;
        private Integer age;

        public People() {

        }

        public People(String name, Integer age) {
            this.name = name;
            this.age = age;
        }

        public String getName() {
            return name;
        }

        public void setName(String name) {
            this.name = name;
        }

        public Integer getAge() {
            return age;
        }

        public void setAge(Integer age) {
            this.age = age;
        }
    }

}

运行结果

运行结果如下图所示：
在这里插入图片描述

toString

我们可以通过重写 People 的 toString() 方法，来打印内容：

@Override
public String toString() {
    return "name: " + this.name + ", age: " + this.age;
}

重新运行

重新运行可以看到：
在这里插入图片描述

自定义输入

可以使用 StreamExecutionEnvironment.addSource()将一个数据源添加到程序中。
Flink提供了许多预先实现的源函数，但是也可以编写自己的自定义源，方法是非并行源：implements SourceFunction，或者为并行源 implements ParallelSourceFuction接口，或者 extends RichParallelSourceFunction
Flink也提供了一些内置的 Connector（连接器），如下表列了几个主要的：
在这里插入图片描述

Kafka连接器

添加依赖

我们需要继续添加依赖：

<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-connector-kafka_2.11</artifactId>
  <version>1.11.1</version>
</dependency>

编写代码

package icu.wzk;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.util.Collector;

import java.util.Properties;

public class StreamFromKafka {

    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 配置信息
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "h121.wzk.icu:9092");

        // Kafka
        FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>(
                "flink_test",
                new SimpleStringSchema(),
                properties
        );
        DataStreamSource<String> data = env.getJavaEnv().addSource(consumer);

        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndOne = data
                .flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
                        String[] words = value.split(" ");
                        for (String word: words) {
                            out.collect(new Tuple2<>(word, 1));
                        }
                    }
                });
        SingleOutputStreamOperator<Tuple2<String, Integer>> result = wordAndOne
                .keyBy(new KeySelector<Tuple2<String, Integer>, Object>() {
                    @Override
                    public Object getKey(Tuple2<String, Integer> value) throws Exception {
                        return value.f0;
                    }
                })
                .sum(1);
        result.print();
        env.execute("StreamFromKafka");
    }

}

启动Kafka

我们需要启动 Kafka 的服务来进行测试，之前章节我们已经配置和启动过Kafka了，这里就是直接启动了。

cd /opt/servers/kafka_2.12-2.7.2/bin
./kafka-server-start.sh ../config/server.properties

启动结果如下图所示：
在这里插入图片描述

创建主题

cd /opt/servers/kafka_2.12-2.7.2/bin/
./kafka-topics.sh --create --zookeeper h121.wzk.icu:2181 --replication-factor 1 --partition 1 --topic flink_test

生产消息

cd /opt/servers/kafka_2.12-2.7.2/bin/
./kafka-console-producer.sh --bootstrap-server h121.wzk.icu:9092 --topic flink_test
# 我们等Java程序启动后，产生几条消息

运行代码

观察控制台可以看到：

3> (hello,1)
5> (world,1)
3> (hello,2)
5> (world,2)
3> (hello,3)
3> (hello,4)
2> (hello!,1)
2> (hello!,2)
...

运行的截图如下所示：
在这里插入图片描述

查看全文

http://www.kler.cn/news/285197.html

Linux随记（十一）

android 14及android15 READ_EXTERNAL_STORAGE跟相册，视频权限的适配

GraphRAG 文本分割优化

深度学习100问31:如何降低语言模型的困惑度

yolov8旋转目标检测部署教程（附代码c++_python）

在Java中，获取输入内容可以通过多种方式实现，以下是三种常用的方式：Scanner、BufferedReader 和 Console 的具体代码示例

chromedriver下载地址

c# net8调用vc写的dll

机械学习—零基础学习日志（如何理解概率论10）

学习记录：js算法（二十）：子数组最大平均数 I、无重复字符的最长子串

Linux(文件的查找和解压缩)

RelativeLayout相对布局

使用 UniApp 实现摄像头视频流的接入并在页面上显示视频流

NC115.栈和排序_C++题解

python-word添加标题，段落，文字块

Web开发 Ajax 2024/3/31

004、架构_计算节点

科研绘图系列：R语言单细胞差异基因四分图（Quad plot）

加密与安全_前后端通过AES-CBC模式安全传输数据

【Python】运行tcl、perl程序

EasyExcel冲突问题，java.lang.NosuchFieldError: Factory

《软件工程导论》（第6版）第4章形式化说明技术复习笔记

Xcode插件开发

【机器学习】数据预处理-特征工程与特征选择

数字芯片中I/O单元及电源domain布局中SIPI的考虑

浅谈C#委托

zdppy+vue3+onlyoffice文档管理系统实战 20240828上课笔记 zdppy_cache框架完成和验证码框架继续优化

EmguCV学习笔记 VB.Net 第8章图像分割

org.apache.commons.lang.math.NumberUtils#isNumber 解释

大语言模型数据增强与模型蒸馏解决方案

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

DataStream API

基于文件

基于Socket

基于集合

编写代码

运行结果

toString

重新运行

自定义输入

Kafka连接器

添加依赖

编写代码

启动Kafka

创建主题

生产消息

运行代码

相关文章：