当前位置: 首页 > article >正文

Flume采集Kafka并把数据sink到OSS

安装环境

  1. Java环境, 略 (Flume依赖Java)
  2. Flume下载, 略
  3. Scala环境, 略 (Kafka依赖Scala)
  4. Kafak下载, 略
  5. Hadoop下载, 略 (不需要启动, 写OSS依赖)

配置Hadoop

下载JindoSDK(连接OSS依赖), 下载地址Github
解压后配置环境变量

export JINDOSDK_HOME=/usr/lib/jindosdk-x.x.x
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${JINDOSDK_HOME}/lib/*

修改Hadoop配置, core-site.xml

<property>
        <name>fs.oss.credentials.provider</name>
        <value>com.aliyun.jindodata.oss.auth.SimpleCredentialsProvider</value>
    </property>
    <property>
        <name>fs.oss.accessKeyId</name>
        <value>xxxx</value>
    </property>
    <property>
        <name>fs.oss.accessKeySecret</name>
        <value>xxxx</value>
    </property>
    <property>
        <name>fs.oss.endpoint</name>
        <value>xxxxx</value>
    </property>
    <property>
        <name>fs.AbstractFileSystem.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOSS</value>
    </property>
    <property>
        <name>fs.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOssFileSystem</value>
    </property>

配置可参考非EMR集群接入OSS-HDFS服务快速入门

配置Flume

此部分全文最关键, 请仔细看

  1. 基础配置部分, Flume配置
a1.sources = source1
a1.sinks = k1
a1.channels = c1

a1.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.source1.channels = c1
a1.sources.source1.kafka.bootstrap.servers = xxx
a1.sources.source1.kafka.topics = test
a1.sources.source1.kafka.consumer.group.id = flume-sink-group # 消费者组, 云组件需要先在管理后台创建
a1.sources.source1.kafka.consumer.auto.offset.reset = earliest # 从头消费Kafka里数据

a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = oss://xxx/test/%Y%m%d # 自动按天分文件夹
a1.sinks.k1.hdfs.fileType=DataStream

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

可参考使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务
2. 进阶配置, 根据自己情况按需配置

a1.sinks.k1.hdfs.rollInterval = 600 # 5分钟切换一个新文件
a1.sinks.k1.hdfs.rollSize = 134217728 # 或者文件大小达到128M则切换新文件
a1.sinks.k1.hdfs.rollCount = 0 # 写入多少条数据切换新文件, 0为不限制

我这里是为了防止sink的文件过于零碎, 但因为使用的memory channel, 缓存时间过长容易丢数据
3. Flume JVM参数
默认启动时-Xmx20m, 过于小了, 加大堆内存可以直接放开flume-env.shJAVA_OPTS的注释

export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote"
  1. Channel问题
    如果对数据一致性要求较高, 可以把memory channel改用file channel, 请自行研究

XX启动!

几条测试命令

bin/zookeeper-server-start.sh config/zookeeper.properties # 启动zookeeper
bin/kafka-server-start.sh config/server.properties # 启动kafak服务

bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name a1 # 启动flume

bin/kafka-console-producer.sh --topic flume-test --bootstrap-server localhost:9092 # 启动一个生产者写测试数据

http://www.kler.cn/a/146222.html

相关文章:

  • CSRF攻击XSS攻击
  • Flink (九):DataStream API (六) Process Function
  • 5. 推荐算法的最基础和最直观的认识
  • 技术晋升读书笔记—华为研发
  • 面试经验分享-回忆版某小公司
  • Redis 性能优化:多维度技术解析与实战策略
  • Controller 层代码就该这么写,简洁又优雅!
  • Xcode:does not contain bitcode
  • 华为eNSP使用教程(Enterprise Network Simulation Platform,企业网络仿真平台)
  • Docker搭建个人网盘NextCloud并接入雨云对象存储的教程
  • PNG格式的图像比JPG图像多一个Alpha通道
  • 【C++高阶(五)】哈希思想--哈希表哈希桶
  • 皮尔逊相关性分析的matlab实现,简介和实例
  • Go 基本语法
  • 数智赋能 锦江汽车携手苏州金龙打造高质量盛会服务
  • 删除巨大文本文件的最后一行
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 3 Finding Similar Items
  • STM32 CAN协议讲解以及代码
  • CSS水平居中与垂直居中的方法
  • 【K8s 网络】Linux网络虚拟化与TCP/IP网络
  • Facebook的特点优势
  • Oracle 中的操作符
  • C++基础 -3- 匿名空间,命名空间跨文件使用
  • 格雷希尔针对J2044燃油管测试专用快速接头都有哪些及各自的应用场合
  • Vatee万腾的科技冒险:Vatee独特探索力量的数字化征程
  • coreelec与安卓 双系统共存-默认CoreElec引导后10秒计时进入android插件