当前位置: 首页 > article >正文

NoETL

目录

什么是NoETL

NoETL 构建的方法


Data Fabric 的核心理念认为,将所有数据完全集中存储既不现实也不经济,应该通过虚拟化和其他技术手段实现逻辑上的集中管理。这个理念承认了数据分散的现状,提出用新的思路来解决问题,并将其转化成行之有效的方法。

个人而言,我认为 Data Fabric 与其说是一种技术的进步,不如说是技术演化必然走向的一个妥协的结果。Data Fabric 的核心技术是数据虚拟化。数据虚拟化主要由几个层次构成,首先是底层的连接层。这一层的关键特点在于它能够把各种不同结构、来源、地域和存储介质的数据映射为一个统一的模型层,为用户提供了一个数据交互的统一平面。这种通过连接层屏蔽差异性来实现数据虚拟化的做法,为上层的各种数据整合奠定了基础。
有了这个基础之后,我们就可以在其之上进行各种数据加工处理逻辑定义,然后让终端消费者通过上层产品来使用这些数据。这便构成了数据虚拟化的典型架构。在这个架构下,我们面临的最大挑战,正如我之前提到的,是在查询虚拟化的数据时如何解决性能问题,确保无论数据的规模有多大,用户都能获得近似于在本地直接进行数据查询的性能和使用体验。

什么是NoETL

NoETL ("Not Only ETL") is a workflow automation library and framework to simplify the process of defining, managing, and executing complex workflows. Particularly well-suited for orchestrating data processing pipelines, it extends beyond just ETL tasks and is designed for task automation in distributed runtime environments.

相对于ETL先生产后消费的模式。NoETL是一种直接消费,是否预计算、如何预计算由一个系统决定。

NoETL 构建的方法

  • 生产模式革新

传统数据仓库采取“预处理模式”,即在用户实际使用数据前,预先完成所有ETL 过程及物理数据表的构建工作。而逻辑数据平台则借鉴了“按需生产”的理念,以业务数据需求为导向,优先进行数据探查并制定逻辑取数规则,而非预先进行物理数据加工。系统依据用户对数据的实际应用场景和性能需求动态响应,仅在必要时,如遇到性能瓶颈时,才针对性地创建 RP 以实现物理数据的生成与优化。相较于传统数仓“先生产后消费”的模式,更加灵活高效。

  • 数据集成能力提升

逻辑数据平台能够更简易地实现全域数据资产的集成,克服了传统数仓物理集成的挑战,集成过程更为灵活且全面。

  • 数据加工自动化

在逻辑数据平台中,能够无缝执行传统数据仓库中的各类数据处理任务,包括构建常规视图与具备历史快照功能的视图,以及运用分层加工和资产管理等策略。相较于传统模式,逻辑数据平台的一大革新在于自动化处理原本需要人工创建和管理的 ETL 任务及其发布、回收流程,从而极大地减轻了用户的后台运维负担,提升了系统的智能化水平,并显著优化了整体数据处理效率。

  • 数据消费便捷化

在数据消费层面,传统数据仓库通常需将数据迁移至独立的 OLAP 引擎以进行深度处理,但逻辑数据平台通过其内置的虚拟化引擎智能适配跑批与 OLAP 分析查询功能,从而消除了这一需求。当 BI 工具或其他消费者访问逻辑数据时,无需关注查询应被导向哪个具体执行引擎,所有查询均统一通过逻辑数据平台的虚拟化引擎进行处理。这一特性极大地削减了用户在数据消费过程中因对接不同引擎和数据导出所带来的额外成本与复杂性,提升了数据使用的便捷性和效率。

  • 资产管理范围扩大

传统数仓局限于管理已同步的数据资产,而逻辑数据平台则能对企业的所有数据资产进行全面整合和管理,不受资产是否同步至仓库的限制。

  • 基础设施解耦升级便捷

逻辑数据平台实现了逻辑层与底层引擎的完全解耦,使得技术升级或引擎替换时,对上层业务的影响降到最低,确保业务连续性和稳定性。

ETL原罪是什么?NoETL怎么搞?

https://github.com/noetl/noetl


http://www.kler.cn/a/393164.html

相关文章:

  • 【自用】0-1背包问题与完全背包问题的Java实现
  • 【VBA实战】用Excel制作排序算法动画续
  • FreeRTOS学习13——任务相关API函数
  • 解决表格出现滚动条样式错乱问题
  • 单例模式详解:如何优雅地实现线程安全的单例
  • 基于表格滚动截屏(表格全部展开,没有滚动条)
  • 【网络安全】OSI网络安全体系结构
  • 接口自动化分支管理规范
  • Android音频架构
  • <websocket><PLC>使用js和html实现webscoket,与PLC进行socket通讯的实例
  • SPSS频率统计计算公式示例
  • 电子电气架构 ---车载以太网络环境下的安全威胁
  • 1. ShardingJDBC实际使用01
  • 详解机器学习经典模型(原理及应用)——DBSCAN
  • C++网络编程之SSL/TLS加密通信
  • turtlesim修改窗口大小;添加自己的小乌龟;
  • React Native 全栈开发实战班 - 列表与滚动视图
  • 【无线传感器网络】数据集合集!
  • 云服务器搭建及Docker使用---清风
  • 贪心算法理论
  • 集群聊天服务器(2)Json介绍
  • android studio中按钮提示Hardcoded string “XX“, should use `@string` resource
  • 【windows 下使用 tree】
  • sql专题 之 where和join on
  • AI数字人使用的技术及应用场景
  • 卷积神经网络CNN——卷积层、池化层、全连接层