从0攒一个分布大数据/人工智能/数据库 处理引擎
以下各组件部署方式:嵌入模式 vs 独立服务模式
组件选型:
- 分布式网络通信: brpc, zmq ...
- 分布式高可靠存储用于存元信息: zk, etcd, braft
- 分布式状态保存用于存储数据: memory/disk storage(shuffle,sort): rocksdb+partition_manage
- 单机计算引擎: Graph Vacanoo Pipeline: tensorflow, flink, spark, (database) duckdb, postgresql
- 数据结构: rdd, DataSet, DataFrame....
- UDF,UDAF, UDTF, OPS扩展
- DAG 管理: TaskFlow
- 资源管理和分配: yarn
- 任务管理: submit job, job status track
- Failover: checkpoint 保存与恢复
- Monitor/Logs:监控日志状态跟踪