当前位置: 首页 > article >正文

数据库血缘工具学习,使用以及分享

一.血缘关系是什么?为什么要分析血缘关系?

首先,什么是血缘关系?
是指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。

说的再简单直白一点就是我们的表是由哪些表分析得出的。

血缘关系有四大特性:归属性、多源性、可追溯及层次性

归属性:一般来说,特定的数据归属于特定的组织或者个人。

多源性:同一个数据可以有多个来源(多个父亲);一个数据也可以是多个数据经过加工生成的,而且这种加工过程可以是多个。

可追溯性:数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

层次性:数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。

数据血缘产生最本质的需求。大数据开发作为数据汇集与数据服务提供方,庞大的数据与混乱的数据依赖导致管理成本与使用成本飙升。

而在我的数仓文章中:
离线数仓项目实战!其二导入数据与数据仓库维度建模_离线数仓互联网金融项目-CSDN博客
离线数仓项目实战!其三项目剩下的维度建模、任务调度与datagear可视化分析-CSDN博客
我对数仓中的表进行血缘分析时是用Excel逐一对比的,如图:

非常的麻烦和费劲,而且由于表字段也比较多,也不能用线条去一一对应,因此最近去了解学习了一下血缘关系和具体的相关软件。

二.软件使用,马哈鱼数据血缘分析软件(不是很推荐)

官网:
SQLFlow 马哈鱼数据血缘分析工具,专业数据治理团队的选择 - SQLFlow

试用页面:
SQLFlow: Visualize column impact and data lineage to track columns across transformations by analyzing SQL query. (gudusoft.com)

如图选择 数据库,放入SQL语句,最后选择分析:

分析如图:

并且可以选择设置分析条件:

ER图和字段位置:

为什么不推荐使用?

如图他可以选择连接本地数据库,或是上传文件进行分析。

但是经过我的尝试我发现连接不上,不仅是我的虚拟机hive连接不上而且就连我本地的mysql也连接不上,我去官网查看使用说明发现可能是账户不是付费用户。

 于是进入它的免费试用申请:

点击提交无法申请,点击半天也没动静。因此综上我认为马哈鱼用起来并不舒服不推荐使用。

三.软件使用,Datablau(国产血缘分析)

官网:企业简介 - Datablau - 数语科技
在线使用:Datablau SQLink 血缘解析工具

也可以免费试用,但是会打电话访问,介意的话就直接使用网页版:

页面上的名词解释:

DDM

指的是分布式数据库中间件(Distributed Database Middleware),是华为云提供的服务之一,它使用华为关系型数据库(RDS)作为存储引擎,为应用提供透明、高效、可靠的分布式数据库访问能力。

DAM

指的是数字资产管理(Digital Asset Management)专门用于管理和存储数字资产(如图片、视频、音频、文档等)的系统。

DDC

分布式数据中心(Distributed Data Center)在数据中心和云计算领域,DDC还可能指分布式数据中心。分布式数据中心是传统IDC的升级方案,也是下一代超高速网络的信息基础设施。

DDS

分布式数据系统(Distributed Data Systems)定义:DDS也可以指分布式数据系统,是一种用于数据的分布式管理和通信的系统。其核心在于数据的分布性和实时性。

Datablau D3

Datablau D3是一款专业的数据开发管理工具,它将数据需求、模型设计、模型管控、数据开发、数据运维、项目交付、数据治理融为一体。

DDM Archy

DDM Archy是基于Datablau DDM推出的一个架构建模套件产品。适用于各种需要高效管理数据架构和资产的场景,如金融、电商、医疗、教育等行业的数据仓库建设、数据挖掘、数据分析等。

SQLink

通过SQL Link,可以在不同数据库之间建立连接,实现数据的共享和交互。这种技术通常用于在不同的数据库中进行数据查询和操作,使得不同数据库之间的数据可以互相访问和交换。

如图我还以为是跟阿里云之类的申请就可以直接用一段时间,但是还要 电话联系,如果知道的话就不申请了。

页面如下:

能看出来页面都大差不差,但是当然还是使用汉字的更舒服。而且对于我们个人学习使用来说,这网页的功能也足够使用了。

网页仅有两个操作:


http://www.kler.cn/news/355647.html

相关文章:

  • 状态设计模式
  • JavaScript 第20章:Web Workers
  • 设计一个高效的日志分析系统:自动检测错误日志的实用指南
  • 计算机网络架构实例
  • Rocketmq 发送消息超时踩坑,消费正常
  • AJAX——HTTP 协议请求报文和响应报文结构
  • 字节跳动青训营——入营考核解答(持续更新中~~~)
  • 《 C++ 修炼全景指南:十六 》玩转 C++ 特殊类:C++ 六种必备特殊类设计的全面解析
  • C#第四讲:C#语言基本元素概览,初识类型、变量与方法,算法简介
  • nginx配置多个SSL证书实操记录
  • Qt 支持打包成安卓
  • RestClient查询文档match查询、精确查询和布尔查询
  • SSD |(七)FTL详解(中)
  • 轻松实现 API 接口限流:Bucket4j 在 Spring Boot 中的应用
  • 自适应权重
  • MongoDB集合(Collection)的详细使用说明
  • OpenAI重磅发布GPT-4O-Audio-Preview 语音也能“读懂”情绪!
  • 重塑企业数字化未来:物联网与微服务架构的战略性深度融合
  • 【设计一个恒流转恒压用于电池充电管理】2022-01-25
  • 判断推理学习