当前位置: 首页 > article >正文

大数据系列之:深入理解学习使用腾讯COS和COS Ranger权限体系解决方案,从hdfs同步数据到cos

大数据系列之:深入理解学习使用腾讯COS和COS Ranger权限体系解决方案,从hdfs同步数据到cos

  • 对象存储COS
  • 对象存储基本概念
  • COS Ranger权限体系解决方案
  • 部署组件
    • COS Ranger Plugin
    • 部署COS-Ranger-Service
    • 部署COS Ranger Client
    • 部署 COSN
  • 从hdfs同步数据到cos

对象存储COS

  • 对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。

对象存储基本概念

基本概念:

  • 存储桶(Bucket):是对象的载体,可理解为存放对象的“容器”。一个存储桶可容纳无数个对象。
  • 对象(Object):是对象存储的基本单元,可理解为任何格式类型的数据,例如图片、文档和音视频文件等。
  • 地域(Region):是腾讯云托管机房的分布地区,对象存储 COS 的数据存放在这些地域的存储

COS Ranger权限体系解决方案

Hadoop Ranger 权限体系是大数据场景下的权限解决方案。用户使用存算分离后,将数据托管在对象存储(Cloud Object Storage,COS)上。COS 使用的是腾讯云访问管理(Cloud Access Management,CAM)权限体系,无论是用户身份,权限策略等,都与本地 Hadoop Ranger 体系不同。为维持客户的使用习惯,我们提供 COS 的 Ranger 接入解决方案。

优势

  • 细粒度的权限控制,兼容 Hadoop 权限逻辑,用户统一管理大数据组件与云端托管存储的权限。
  • 插件侧无需在 core-site 中设置密钥,密钥统一在 COS Ranger Service 中设置,避免明文密钥的泄露。

解决方案架构
在这里插入图片描述

Hadoop 权限体系中,认证由 Kerberos 提供,授权鉴权由 Ranger 负责。在此基础上,我们提供以下组件,来支持 COS 的 Ranger 权限方案。

  • COS Ranger Plugin:提供 Ranger 服务端的服务定义插件。它们提供了 Ranger 侧的 COS 服务描述,包括权限种类,必要参数定义(例如 COS 的 bucket 参数和 region 参数)。部署了该插件后,用户即可在 Ranger 的控制页面上,填写相应的权限策略。
  • COS Ranger Service:该服务集成了 Ranger 的客户端,周期性从 Ranger 服务端同步权限策略,在收到客户的鉴权请求后,在本地进行权限校验。 同时它提供了 Hadoop 中 DelegationToken 相关的生成、续租等接口,所有的接口都是通过 Hadoop IPC 定义。
  • COS Ranger Client:COSN 插件对其进行动态加载,把权限校验的请求转发给 COS Ranger Service。

部署环境

  • Hadoop 环境。
  • ZooKeeper、Ranger。
  • Kerberos 服务。

推荐EMR-V350版本使用的组件版本。

  • Hadoop-3.2.2
  • Zookeeper-3.6.3
  • Ranger-2.3.0
  • Kerberos-1.15.1

部署组件

部署组件请按照 COS Ranger Plugin、COS Ranger Service、COS Ranger Client、COSN 次序进行。

COS Ranger Plugin

COS-Ranger-Plugin 拓展了 Ranger Admin 控制台上的服务种类,用户可在 Ranger 控制台上,设置和 COS 相关的操作权限。

在 Ranger 的服务定义目录下新建 COS 目录(注意,目录权限需要保证至少有 x 与 r 权限)。

  • a. 腾讯云的 EMR 环境,路径位于部署了ranger服务的Master节点的 /usr/local/service/ranger/ews/webapp/WEB-INF/classes/ranger-plugins。
  • b. 自建的 hadoop 环境,可以通过在 ranger 目录下查找 hdfs 等已经接入到 ranger 服务的组件,查找目录位置。

在这里插入图片描述
在 COS 目录下,放入 cos-chdfs-ranger-plugin-xxx.jar。(注意 jar 包至少有 r 权限)。同时需要放入 cos-ranger.json 文件。
https://github.com/tencentyun/cos-ranger-service/blob/main/ranger-plugin/cos-chdfs-json-for-ranger-2.x/cos-ranger.json

重启 Ranger 服务。

在 Ranger 上注册 COS Service。可参考如下命令:

##生成服务,需传入 Ranger 管理员账号密码,以及 Ranger 服务的地址。
##对于腾讯云 EMR 集群,管理员用户是 root,密码是构建 emr 集群时设置的 root 密码,ranger 服务的 IP 换成 EMR 的 master 节点 IP。
adminUser=root
##构建 EMR 集群时设置的密码,也是 ranger 服务 web 页面的登录密码
adminPasswd=xxxxxx
##如果 ranger 服务有多个 master 节点,任选一个 master 即可
rangerServerAddr=10.0.0.1:6080
##命令行中 -d 指定步骤 2 中的 json 文件
curl -v -u${adminUser}:${adminPasswd} -X POST -H "Accept:application/json" -H "Content-Type:application/json" -d @./cos-ranger.json http://${rangerServerAddr}/service/plugins/definitions
##如果要删除刚定义的服务,则传入刚刚创建服务时,返回的服务 ID
serviceId=102
curl -v -u${adminUser}:${adminPasswd} -X DELETE -H "Accept:application/json" -H "Content-Type:application/json" http://${rangerServerAddr}/service/plugins/definitions/${serviceId}

创建服务成功后,可在 Ranger 控制台看到 COS 服务。如下所示:

在这里插入图片描述
在 COS 服务侧单击**+**,定义新服务实例,服务实例名可自定义,例如cos或者cos_test,服务的配置如下所示。

在这里插入图片描述
配置项需添policy.grantrevoke.auth.users和policy.download.auth.users。value设置后续启动 COS Ranger Service 服务的用户名(即允许拉取权限策略的用户)。通常建议设置成 hadoop,后续 COS Ranger Service 可使用此用户名进行启动。

单击新生成的 COS 服务实例。

在这里插入图片描述

添加 policy,如下所示:
在这里插入图片描述
在跳转界面中,配置以下参数,说明如下:

  • bucket:存储桶名称,例如 examplebucket-1250000000,可登录 COS 控制台 查看。
  • path:COS 对象路径。注意 COS 的对象路径不以/开始。
    • include:表示设置的权限适用于 path 本身,还是除了 path 以外的其他路径。
    • recursive:表示权限不仅适用于 path,还适用于 path 路径下的子成员(即递归子成员)。通常用于 path 设置为目录的情况。

user/group:用户名和用户组。这里是或的关系,即用户名或者用户组满足其中一个,即可拥有对应的操作权限。

Permissions:

  • Read:读操作。对应于对象存储里面的 GET、HEAD 类操作,包括下载对象、查询对象元数据等。
  • Write:写操作。对应于对象存储里面的 PUT 类等修改操作,例如上传对象。
  • Delete:删除操作。 对应于对象存储里删除 Object。对于 Hadoop 的 Rename 操作,需要有对原路径的删除操作权限,对新路径的写入操作权限。
  • List:遍历权限。对应于对象存储里面的 List Object。

在这里插入图片描述
验证

使用 hadoop cmd 执行访问 COSN 的相关操作。查看当前用户执行的操作是否符合主账号的权限设置预期,示例如下所示:

#将bucket,路径等替换为主账号的实际信息。
hadoop fs -ls cosn://examplebucket-1250000000/doc
hadoop fs -put ./xxx.txt cosn://examplebucket-1250000000/doc/
hadoop fs -get cosn://examplebucket-1250000000/doc/exampleobject.txt
hadoop fs -rm cosn://examplebucket-1250000000/doc/exampleobject.txt

部署COS-Ranger-Service

COS-Ranger-Service 是整个权限体系的核心,负责集成 ranger 的客户端,接收 ranger client 的鉴权请求,token 生成续租请求和临时密钥生成请求。同时也是敏感信息(腾讯云密钥信息)所在的区域,通常部署在堡垒机器上,只允许集群管理员操作,查看配置等。

COS-Ranger-Service 支持多节点的 HA 部署,DelegationToken 状态持久化到 DB上。通过 ZK 互相感知彼此节点的存在。通过客户端配置的任何一个存活的 cos-ranger-server 的地址, 即可知道全量的列表。 客户端通过 round-robin 的方式, 把请求发送给所有 cos-ranger-server 的节点. 因此可以通过平行扩容 cos-ranger-server,来提升整体的鉴权能力。

版本

V6.0 版本及以上。

部署步骤

将 COS Ranger Service 服务代码拷贝到集群的几台机器上,生产环境建议至少两台机器。因为涉及到敏感信息,建议是堡垒机或者权限严格管控的机器。

如果是 kerberos 集群, 则需要一个 db 来保存 Delegation Token(有关 kerberos 的 Delegation token 的作用, 搜索相关博文即可), db 规格推荐16c32g,100g磁盘以上。在负载不高的集群上,可混用 Hive meta store 的 db。 初始化 database 和表的 sql 语句可前往 Github 的 cos-ranger-service/sql 目录下获取.

修改 cos-ranger.xml 文件中的相关配置,其中必须修改的配置项如下所示。配置项说明请参见文件中的注释说明。

  • qcloud.object.storage.rpc.address
  • qcloud.object.storage.status.port
  • qcloud.object.storage.enable.cos.ranger
  • qcloud.object.storage.zk.address (zk 地址,cos ranger service 启动后注册到 zk 上)
  • qcloud.object.storage.cos.secret.id
  • qcloud.object.storage.cos.secret.key
  • qcloud.object.storage.kerberos.principal (kerberos 集群下的 principal, 非 kerberos 请忽略)
  • qcloud.object.storage.kerberos.keytab (kerberos 集群下的 keytab 文件, 非 kerberos 请忽略)
  • sql-dt-secret-manager.connection.url(kerberos 集群, 保存 delegation token 的db, 非 kerberos 请忽略)
  • sql-dt-secret-manager.connection.username (kerberos 集群, 访问 delegation token 的db的用户名, 非 kerberos 请忽略)
  • hadoop.security.credential.provider.path (kerberos 集群, 访问 delegation token 的db的用户密码的 jceks 文件路径, 非 kerberos 请忽略)

修改 ranger-cos-security.xml 文件中的相关配置。其中必须修改的配置项有如下所示。配置项说明请参见文件中的注释说明。

  • ranger.plugin.cos.policy.cache.dir
  • ranger.plugin.cos.policy.rest.url
  • ranger.plugin.cos.service.name

修改 start_rpc_server.sh 中 hadoop_conf_path 和 java.library.path 的配置。这两个配置分别指向 hadoop 配置文件所在的目录(例如 core-site.xml、hdfs-site.xml)以及 hadoop native lib 路径。

执行如下命令启动服务。

chmod +x start_rpc_server.sh
nohup ./start_rpc_server.sh &> nohup.txt &

如果启动失败,查看 log 下 error 日志是否有错误信息。

COS Ranger Service 支持展示 HTTP 端口状态(端口名为 qcloud.object.storage.status.port,默认值为9998)。用户可通过以下命令获取状态信息(例如目前全量的cos-ranger-server列表、鉴权数量统计等)。

# 请将下面的10.xx.xx.xxx替换为部署 ranger service 的机器 IP
# port 9998 设置为 qcloud.object.storage.status.port 配置值
curl -v http://10.xx.xx.xxx:9998/status

验证

使用 hadoop cmd 执行访问 COSN 的相关操作。查看当前用户执行的操作是否符合主账号的权限设置预期,示例如下所示:

#将bucket,路径等替换为主账号的实际信息。
hadoop fs -ls cosn://examplebucket-1250000000/doc
hadoop fs -put ./xxx.txt cosn://examplebucket-1250000000/doc/
hadoop fs -get cosn://examplebucket-1250000000/doc/exampleobject.txt
hadoop fs -rm cosn://examplebucket-1250000000/doc/exampleobject.txt

使用 MR Job 进行验证,验证前需重启相关的服务,例如 Yarn、Hive 等。

获取统计信息
可以通过以下 curl 命令手动获取 COS Ranger 的统计信息


curl http://${ranger_ip}:9998/status | jq

# 返回
{
  "allMemberAddress": "10.0.0.7:9999",//集群中所有成员的地址
  "currentNodeIsLeader": true, // 当前节点是否是leader节点
  "leaderAddress": "10.0.0.7:9999", // leader地址(对于客户端v5.x版本有意义,v6.x后是全对等模式,leader信息没有意义
  "authStat": {// 自定义鉴权认证的次数统计信息(对于为实现自定义认证的服务,始终是认证成功)
    "authSuccessStat": { // 认证成功统计信息
      "qps_5m": 0,// 最近 5 分钟的每秒查询数(QPS)
      "total_1m": 0,//最近 1 分钟的总成功认证次数
      "qps_1m": 0,// 最近 1 分钟的每秒查询数
      "total_5m": 0,//最近 5 分钟的总成功认证次数
      "qps": 0//当前的每秒查询数
    },
    "authFailedStat": {// 鉴权认证失败统计信息,字段含义与 authSuccessStat 相同
      "qps_5m": 0,
      "total_1m": 0,
      "qps_1m": 0,
      "total_5m": 0,
      "qps": 0
    }
  },
  "rpcMethodStat": {//包含不同 RPC 方法的调用次数的统计信息
    "checkPermission": {//检查权限的方法统计信息
      "qps_5m": 10,
      "total_1m": 3000,
      "qps_1m": 50,
      "total_5m": 3000,
      "qps": 1000
    },
    "getAvailableService": {//获取可用服务的方法统计信息
      "qps_5m": 0,
      "total_1m": 1,
      "qps_1m": 0.02,
      "total_5m": 1,
      "qps": 0
    }
  },
  "checkPermissionAllowAfterRetryCnt": 0,// 经过重试后允许的权限检查次数
  "checkPermissionAllowCnt": 4000,//允许的权限检查总次数
  "becomeLeaderTime": "2024-12-10T12:56:52.888Z",//当前节点成为leader的时间
  "checkAuthDenyCnt": 0,//被拒绝的认证检查次数
  "serviceStartTime": "2024-12-10T12:56:52.884Z",//服务启动的时间
  "checkPermissionDenyCnt": 0,//被拒绝的权限检查次数
  "accessStat": {//包含不同访问类型的统计信息
    "READ": {//读取操作的统计信息
      "qps_5m": 10,
      "total_1m": 3000,
      "qps_1m": 50,
      "total_5m": 3000,
      "qps": 1000
    }
  },
  "checkCostStat": {//checkPermission(检查权限)耗时的统计信息
    "checkFailStat": {//失败
      "avg_5m": 0,
      "min_1m": 0,
      "avg": 0,
      "min": 0,
      "max": 0,
      "max_1m": 0,
      "avg_1m": 0,
      "max_5m": 0,
      "min_5m": 0
    },
    "checkSuccessStat": {//成功
      "avg_5m": 5,//最近 5 分钟的平均耗时
      "min_1m": 0,//最近1分钟最小耗时
      "avg": 4,//平均耗时
      "min": 0,//最小耗时
      "max": 1263,//最大耗时
      "max_1m": 1263,//最近一分钟最大耗时
      "avg_1m": 5,//最近一分钟平均耗时
      "max_5m": 1263,//最近五分钟最大耗时
      "min_5m": 0//最近五分钟最小耗时
    }
  },
  "authCostStat": {// 权限认证耗时统计
    "authSuccessStat": {
      "avg_5m": 0,
      "min_1m": 0,
      "avg": 0,
      "min": 0,
      "max": 0,
      "max_1m": 0,
      "avg_1m": 0,
      "max_5m": 0,
      "min_5m": 0
    },
    "authFailedStat": {
      "avg_5m": 0,
      "min_1m": 0,
      "avg": 0,
      "min": 0,
      "max": 0,
      "max_1m": 0,
      "avg_1m": 0,
      "max_5m": 0,
      "min_5m": 0
    }
  },
  "rpcMethodCostStat": {//RPC接口耗时统计
    "checkPermission": {
      "avg_5m": 5,
      "min_1m": 0,
      "avg": 4,
      "min": 0,
      "max": 1263,
      "max_1m": 1263,
      "avg_1m": 5,
      "max_5m": 1263,
      "min_5m": 0
    },
    "getAvailableService": {
      "avg_5m": 280,
      "min_1m": 280,
      "avg": 280,
      "min": 280,
      "max": 280,
      "max_1m": 280,
      "avg_1m": 280,
      "max_5m": 280,
      "min_5m": 280
    }
  },
  "statsTimestamp": "2024-12-12T05:28:38.688Z",//统计时间
  "checkStat": {// check policy统计信息
    "checkFailStat": {
      "qps_5m": 0,
      "total_1m": 0,
      "qps_1m": 0,
      "total_5m": 0,
      "qps": 0
    },
    "checkSuccessStat": {
      "qps_5m": 10,
      "total_1m": 3000,
      "qps_1m": 50,
      "total_5m": 3000,
      "qps": 1000
    }
  }
}

部署COS Ranger Client

COS Ranger Client 由 hadoop cosn 插件动态加载,并代理访问 COS Ranger Service 的相关请求。例如获取临时密钥、获取 token、鉴权操作等。

版本

cos-ranger-client 要求V6.0 版本及以上。cosn-ranger-interface 要求 v1.0.5版本及以上。

腾讯云 EMR 环境中默认安装目录在 common/lib 下,例如 /usr/local/service/hadoop/share/hadoop/common/lib 下。请根据自己的环境,放在对应的common/lib 路径下。 对于 ranger-client 的包名,例如 hadoop-ranger-client-for-hadoop-2.8.5-6.0.jar,2.8.5 是 hadoop 版本号,6.0是该包的版本号。for-hadoop 是通常组件使用的版本,其他一些组件,例如 presto, impala 以及高版本的 spark(spark-3.2.0版本及以后) 等,由于对依赖的 hadoop-common做了 shade,因此 ranger-client 也必须做 shade,否则会报类找不到。这些包请下载对应的 for-presto, for-impala, for-spark 版本等。

部署方式
将 cos-ranger-client jar 包和cosn-ranger-interface jar 包拷贝到与 COSN 同一目录下通常在/usr/local/service/hadoop/share/hadoop/common/lib/目录下;请选择拷贝与自身 hadoop 大版本一致的 jar 包,最后确保 jar 包有可读权限。

在 core-site.xml 添加如下配置项:

<configuration>
           <!--*****必须配置********-->
           <!-- 上一步部署的 cos ranger server 的地址 -->
           <property>
               <name>qcloud.object.storage.ranger.service.address</name>
               <value>10.0.0.8:9999,10.0.0.10:9999</value>
           </property>

           <!--***可选配置****-->           
           <!-- 设置 cos ranger service 端用的 kerberos 凭据,参考 cos ranger service 端的配置,须保持一致,如果没有认证的需求,不需要配置 -->
           <property>                
                     <name>qcloud.object.storage.kerberos.principal</name>
                     <value>hadoop/_HOST@EMR-XXXX</value>
           </property>
</configuration>

部署 COSN

部署 COSN 插件方法请参考 Hadoop 工具 文档,但需注意以下几点:

使用 ranger 后,fs.cosn.userinfo.secretId 和 fs.cosn.userinfo.secretKey 密钥信息不需要配置。COSN 插件后续通过 COSRangerService 获取临时密钥。

fs.cosn.credentials.provider 需设置为 org.apache.hadoop.fs.auth.RangerCredentialsProvider 才可通过 Ranger 进行认证鉴权。如下所示:

<property>
         <name>fs.cosn.credentials.provider</name>
         <value>org.apache.hadoop.fs.auth.RangerCredentialsProvider</value>
</property>

从hdfs同步数据到cos

from pyspark.sql import SparkSession
import argparse

# 初始化 Spark 会话
spark = SparkSession.builder \
    .appName("Write Parquet Example") \
    .getOrCreate()

parser = argparse.ArgumentParser()
parser.add_argument('--dt', type=str)
arg = parser.parse_args()
date_time = arg.dt

# 读取 Parquet 文件
df = spark.read.parquet(f"{HDFS路径}/datetime={date_time}")

# 重新分区为 1 个分区
df_repartitioned = df.repartition(1)


# 指定输出路径
output_path = f"cosn://{HDFS路径}/datetime={date_time}"

# 写入 Parquet 文件到指定路径
df_repartitioned.write.mode("overwrite").parquet(output_path)

# 关闭 Spark 会话
spark.stop()

http://www.kler.cn/a/466188.html

相关文章:

  • HTML-列表标签
  • jQuery get 方法内操控vue变量(异步ajax请求方法中操控双向绑定的响应式变量)实现异步请求函数内完成变量的双向响应式绑定
  • js -音频变音(听不出说话的人是谁)
  • 『SQLite』几种向表中插入数据的方法
  • PDF文件提示-文档无法打印-的解决办法
  • Redis数据库笔记—— Hash(哈希)的扩容机制(rehash)
  • 第 22 章 处理 XML
  • Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页
  • Ubuntu20.04 Qt5.14.2 交叉编译RK3588 单独编译qtwebsockets模块
  • 一文读懂相关性分析法
  • PostgreSQL对称between比较运算
  • 每日一学——监控工具(Grafana)
  • C 语言:注释的重要性及用法详解
  • [unity][图形渲染]UnityShader操作基础4-CG/HLSL语义
  • a里ACP大模型模拟试题(附答案及解析)
  • 人工智能之数学基础:向量内积以及应用
  • OpenHarmony通过挂载镜像来修改镜像内容,RK3566鸿蒙开发板演示
  • Java 可变参数、Collections工具类
  • 【51单片机零基础-chapter2:灯独立点亮,自定义点亮,跑马灯点亮,函数】
  • 每日一学——配置管理工具(Chef)
  • K8s高可用集群之Kubernetes集群管理平台、命令补全工具、资源监控工具部署、常用命令
  • 如何验证imap是否生效
  • 深入理解 Android 中的 ActivityInfo
  • 【Java基础】03.Java运算符
  • Linux 多线程(理论+实践)
  • Eplan 布局图中的宏/设备/安装板比例缩放