当前位置: 首页 > article >正文

大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入

点一下关注吧!!!非常感谢!!持续更新!!!

Java篇开始了!

目前开始更新 MyBatis,一起深入浅出!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(正在更新…)

章节内容

  • Atlas 数据仓库元数据管理
  • 数据血缘关系 元数据

在这里插入图片描述

上节进度

上节我们完成到了 对 Atlas 的源码编译,下面我们正式的进行安装。

数据仓库元数据管理

元数据(MetaData)狭义的解释是用来描述数据的数据。广义来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据,如数据库中表的Schema信息,任务的血缘关系,用户和脚本、任务的权限映射关系信息等。

管理元数据的目的,是为了让用户能够更高效的使用数据,也是为了平台管理人员能更加有效的做好数据的维护管理工作。
但通常这些元数据信息是散落在平台的各个系统,各种流程中,它们的管理也可能或多或少可以通过各种子系统自身的工具,方案或者流程逻辑来实现。
元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和需要解决的目标问题。
元数据管理平台还需要考虑如何恰当的形式对这些元数据信息进行展示,进一步的,如何将这些元数据信息通过服务的形式提供给周边上下游系统来使用,真正帮助大数据平台完成质量管理的闭环工作。
应该收集那些信息,没有绝对的标准,但是对大数据开发平台来说,常见的元数据元数据信息包括:

  • 表结构信息
  • 数据的空间存储,读写记录,权限归属和其他各类统计信息
  • 数据的血缘关系信息
  • 数据的业务属性信息

Atlas

正式安装

cd /opt/software/apache-atlas-sources-1.2.0/distro/target

# 解压缩
tar zxvf apache-atlas-1.2.0-bin.tar.gz

mv apache-atlas-1.2.0/ /opt/servers/atlas-1.2.0

过程结果如下所示:
在这里插入图片描述

环境变量

# 修改 /etc/profile,设置环境变量 ATLAS_HOME
vim /etc/profile

# atlas
export ATLAS_HOME=/opt/servers/atlas-1.2.0
export PATH=$PATH:ATLAS_HOME/bin

配置的结果如下所示:
在这里插入图片描述

启动服务

刷新环境变量之后,启动服务:

cd $ATLAS_HOME/bin
./atlas_start.py

执行结果如下图所示:
在这里插入图片描述

查看进程

ps -ef | grep atlas

可以看到进程有:
在这里插入图片描述

停止服务

cd $ATLAS_HOME/bin
./atlas_stop.py

检查Solr

cd /opt/servers/atlas-1.2.0/solr/bin
./solr status

Solr process 25038 running on port 9838

执行结果如下图所示:
在这里插入图片描述

访问项目

http://h122.wzk.icu:21000

打开的页面如下所示:
在这里插入图片描述
登录账号密码都是 admin
在这里插入图片描述

Hive血缘导入

拷贝配置

将 $ATLAS_HOME/conf/atlas-application.properties 拷贝到 $HIVE_HOME/conf 目录下

ln -s $ATLAS_HOME/conf/atlas-application.properties $HIVE_HOME/conf/atlas-application.properties

拷贝Jar包

ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-jaxrs-base-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-jaxrs-base-2.9.9.jar

ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-jaxrs-json-provider-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-jaxrs-json-provider-2.9.9.jar

ln -s $ATLAS_HOME/server/webapp/atlas/WEB-INF/lib/jackson-module-jaxb-annotations-2.9.9.jar $ATLAS_HOME/hook/hive/atlas-hive-plugin-impl/jackson-module-jaxb-annotations-2.9.9.jar

执行结果如下所示:
在这里插入图片描述

修改Hive

vim $HIVE_HOME/conf/hive-site.xml

增加hook

<property>
  <name>hive.exec.post.hooks</name>
  <value>org.apache.atlas.hive.hook.HiveHook</value>
</property>

写入内容如下所示:
在这里插入图片描述
在 $HIVE_HOME/conf/hive-env.sh中添加HIVE_AUX_JARS_PATH变量

# 之前没弄过
mv $HIVE_HOME/conf/hive-env.sh.template $HIVE_HOME/conf/hive-env.sh
vim $HIVE_HOME/conf/hive-env.sh

写入内容如下:

export HIVE_AUX_JARS_PATH=/opt/servers/atlas-1.2.0/hook/hive

对应结果如下所示:
在这里插入图片描述

批量导入

我们需要Hive可以正常启动,在执行过程中要输入admin/admin账号密码

# 控制台执行 hive
sh /opt/servers/atlas-1.2.0/bin/import-hive.sh

执行后,需要输入账号密码:
在这里插入图片描述
成功导出之后,我们可以看到控制台输出了内容:
在这里插入图片描述

访问结果

打开刚才项目,Search中的选项有新的变化:

http://h122.wzk.icu:21000

对应结果如下图所示:
在这里插入图片描述
Hive Hook 可以捕获如下的操作:

  • create database
  • create table/view, create table as select
  • load, import, export
  • DMLs(insert)
  • alter database
  • alter table
  • alter view

最终的血缘关系:
在这里插入图片描述


http://www.kler.cn/a/452251.html

相关文章:

  • 【项目管理】根据业务流程进行函数结构设计和模块化设计
  • Next.js 14 性能优化:从首屏加载到运行时优化的最佳实践
  • Issac ROS navigation测试
  • 39.在 Vue3 中使用 OpenLayers 导出 GeoJSON 文件及详解 GEOJSON 格式
  • MacOS M3源代码编译Qt6.8.1
  • Docker 部署 plumelog 最新版本 实现日志采集
  • 《Web 搜索引擎优化》
  • CI/CD在前端项目的应用:实现自动化与持续交付
  • Go入门篇:(二)基础知识之结构,包,变量初探
  • my-sql编写技巧
  • 阿里云虚拟主机ecs镜像如何转移到本地virtualbox上
  • CH32V307VCT6---工程template创建
  • uniapp微信小程序,使用fastadmin完成一个一键获取微信手机号的功能
  • arcface
  • Linux configfs和sysfs的使用与理解
  • 开关电源中的高频振荡噪声及其抑制方法
  • 117.【C语言】数据结构之排序(选择排序)
  • 青蛇人工智能学家
  • 2025差旅平台怎么选?一体化、全流程降本案例解析
  • 用 Python 从零开始构建 LLaMA 3
  • 网络管理(Network Management,NM)(一)
  • 【唐叔学算法】第19天:交换排序-冒泡排序与快速排序的深度解析及Java实现
  • 斐波那契数【东北大学oj数据结构10-1】C++
  • 大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动
  • Type-c接口
  • 将Minio设置为Django的默认Storage(django-storages)