当前位置：首页 > article >正文

从0攒一个分布大数据/人工智能/数据库处理引擎

article 2025/2/21 3:45:13

以下各组件部署方式：嵌入模式 vs 独立服务模式

组件选型：

分布式网络通信: brpc, zmq ...
分布式高可靠存储用于存元信息: zk, etcd, braft
分布式状态保存用于存储数据: memory/disk storage(shuffle,sort): rocksdb+partition_manage
单机计算引擎: Graph Vacanoo Pipeline: tensorflow, flink, spark, (database) duckdb, postgresql
数据结构: rdd, DataSet, DataFrame....
UDF,UDAF, UDTF, OPS扩展
DAG 管理: TaskFlow
资源管理和分配: yarn
任务管理: submit job, job status track
Failover: checkpoint 保存与恢复
Monitor/Logs:监控日志状态跟踪

http://www.kler.cn/a/374806.html

相关文章：

躺平成长-下一个更新的数据（躺平成长数据显示核心）

【计算机网络 - 基础问题】每日 3 题（六十）

Make a Windows service publicly accessible

IDEA控制台报错(org.springframework.http.converter.HttpMessageNotWritableException)

信息论与熵information and entropy

Linux：线程池

ADT和ADT接口

【Fargo】21：rtcp rr 问答

手机玩亚托莉：我挚爱的时光！手机推gal、躺床玩漫改gal教程

龙迅#LT6211适用于HDMI转4PORT LVDS,分辨率高达4K60HZ,可提供技术支持!

【C++刷题】力扣-#561-数组拆分

【Linux刷题练习】

线上3D看车有何优势？

Linux 宝塔安装（各操作系统命令合集）

Zipkin使用指南分布式追踪核心概念与架构详解

vos3000外呼系统通话无法接续怎么解决？

CMake 生成器表达式介绍

2024最新Twitter养号全面指南，品牌起号必看！

Windows部署rabbitmq

基于Pyecharts的数据可视化开发（二）调用通义千问api分析爬虫数据