flume系列之:出现数据堆积时临时增大sink端消费能力
flume系列之:出现数据堆积时临时增大sink端消费能力
- 一、背景
- 二、增大sink端消费能力
flume系列之:flume生产环境sink重要参数理解
一、背景
- flume出现数据堆积,消费的数据持续堆积在channel中
- 参数org_apache_flume_channel_channel1_channelfillpercentage的值大于0,并且持续增长,表明source端消费的数据,sink端无法及时同步到hdfs上
- 现在需要加快sink端消费数据的能力,从而保证数据快速消化完
二、增大sink端消费能力
适当调大下面参数的值:
-
sinks.sink1.hdfs.maxOpenFiles = 9000
-
设置HDFS Sink插件同时打开的最大文件数。系统的磁盘和内存资源充足,并且需要同时写入大量的文件,可以适当增大该参数的值。系统资源有限或写入的文件较少,可以减小该参数的值。
-
sinks.sink1.hdfs.threadsPoolSize = 500
-
设置HDFS Sink插件的线程池大小。该参数的值决定了可以并行处理的任务数。系统的CPU核心数较多,并且