FFA 2023|字节跳动 7 项议题入选
Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者不可错过的的技术盛宴。
今年 Flink Forward Asia(以下简称 FFA ) 回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。延续 FFA 惯例,峰会所有议题均为开放征集而来,并由专业的议题评选委员会评分筛选,确保内容代表行业领先水平,为开发者们输出更加优质的干货,并为各企业提供可借鉴的实践经验。本次大会,字节跳动 7 项议题入选,包括OLAP Serverless、流批一体、自动化运维的大规模落地实践外,也对抖音、头条等业务背后的监控预警、实时数仓、推荐平台实践进行分享。
FFA 2023 官网:https://flink-forward.org.cn/
议题推荐
Flink OLAP Serverless 能力在字节跳动的落地实践
冯向宇,字节跳动基础架构工程师
演讲介绍:随着 Flink OLAP 在高 QPS 下的作业调度和作业执行优化逐渐落地,Flink OLAP 在字节内部的业务规模也大幅增长,同时也遇到了更多样化的计算挑战,其中最主要的一项挑战是计算能力的 Serverless 化。通过开发实现资源隔离、弹性扩缩容、优雅退出、冷启动优化、多策略限流等特性,我们完成了 Flink OLAP的Serverless 能力改造,并在内部成功完成了业务推广。本次分享我们将从 Flink OLAP 遇到的 Serverless 能力挑战、资源隔离实现、云原生能力增强、弹性扩缩容、业务落地及规划等五个方面进行介绍。
流批一体在字节跳动的大规模落地实践
苏德伟,字节跳动基础架构工程师
演讲介绍:Flink 是事实上的流计算标准,但在批计算场景的应用并不广泛。随着 Flink 引擎流批一体能力的完善,在字节跳动内部我们将离线数据同步场景下的 2.2w+ Spark SQL 作业迁移至 Flink Batch SQL,以推进流批一体的落地。Spark SQL 作业具有丰富的 Pattern,我们通过解决大量 Spark SQL 的兼容性问题,并进行数据准确性校验以及自动化迁移,将每日例行作业平滑迁移至 Flink Batch 并在线上稳定运行。本次分享将主要从以下五个部分介绍流批一体在字节跳动的大规模落地实践。
字节全增量一体化实时数据建设方案
秦冰伦:字节跳动实时数据工程师 & 刘想:字节跳动实时数据工程师
演讲介绍:字节的业务包含很多全增量一体化数据场景,典型场景如用户画像、风控、房产等,运营既需要过去长时间范围的数据来挖掘潜在的价值,也对数据新鲜度有很高的诉求,因此实时数据的全增量一体化价值很大。本次分享主要介绍全增量一体化流式计算建设过程中面临的挑战和解决方案。
Flink 自动化运维的大规模落地实践
陈张昊,字节跳动基础架构工程师
演讲介绍:过去几年中,字节跳动内部 Flink 作业规模逐渐增长到数万量级,业务有限的人力趋于无力应对随流量变化需人工调优资源配置、单机问题易导致慢节点需人工迁移等带来的运维压力。面对运维难题,沉淀出一套 Flink 自动化运维体系,并在内部大规模落地实践:托管了 1.5W+ 任务,在流量变化时自动扩缩容以避免消费积压的同时可以提升资源使用率、每日自动迁移 1K+ 次慢节点消除消费积压,有效减轻了业务的 Flink 作业运维压力。本次分享我们将从以下五个方面介绍 Flink 自动化运维的落地实践。
字节跳动实时数仓质量与成本治理平台实践
朱福生,字节跳动数据工程师
演讲介绍:随着业务对数据时效要求的提升和实时任务数量的不断增加,字节跳动已运行了上万的 Flink 实时任务,由于实时任务依赖的组件繁多、开发人员众多 、开发习惯和经验参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此任务治理势在必行,但纵观整个治理过程,仍存在以下矛盾:业务与治理的矛盾、人力与治理的矛盾、问题与可评价的矛盾。本文将通过治理背景、健康分体系、治理收益、健康分规划四个方面来介绍实时健康分如何让实时治理简单、高效、可持续化。
字节推荐面向下一代特征工程架构演进之路
刘首维,字节跳动推荐架构工程师
刘方奇,字节跳动推荐架构工程师
演讲介绍:字节跳动在过去几年的发展中推荐系统基于 Flink、Spark、Hudi 等大数据组件打造了支持万亿数据吞吐的特征生产系统,随着直播、电商、生活服务等业务高速发展和算法工程师规模的扩大,对推荐系统中的离线组件在易用性、成本、架构方面提出了进一步挑战,我们也在此背景下,提出了新一代特征生产和入湖链路,其中包括引入推荐系统 Planner、面向用户的 Python SDK 以及 Flink 流批一体的样本入湖等功能,在开发效率、成本和性能上都有显著收益:其中原始特征生产的开发上线周期从 N 天至 1 周可以降低到小时级,推荐样本入湖的计算性能也提升到了原来的 3 倍+。
Flink 在抖音实时监控预警场景下的落地实践
张宏博,字节跳动数据工程师
演讲介绍:随着实时数仓的发展建设及业务对实时数据的强诉求,实时数仓支持了越来越多高优业务,同时也遇到了新的挑战。从最初快速支持业务,到更加注重时效性、准确性,我们的目标不断提升,架构不断完善,在提升数据时效性、准确性的道路上持续探索。经历了一系列的方案->工具->平台的迭代演进后,最终沉淀了一套基于 Flink SQL 的实时监控预警体系,帮助及时发现数据问题,助力业务实现监控诉求。本次分享从数据层面和业务层面两个角度出发,为大家介绍抖音基于 Flink 的实时监控预警能力落地实践。
直播预约&参会报名
PC 端可前往 FFA 2023 大会官网操作:https://flink-forward.org.cn/。
移动端可关注「Apache Flink」视频号预约直播。