当前位置: 首页 > article >正文

【大数据】-- spark 读取 Maxcompute 优化

目录

1、情景再现

2、Locality Level 知识点介绍

3、问题分析与解决

3.1、分析

3.2、解决


1、情景再现

      当使用 Spark 2.3 读取 odps (Maxcompute)表时,发现下游 rdd 的位置优先处于 RACK_LOCAL,说明数据在同一机架的不同节点上。需要通过网络传输数据及文件 IO,这个 Locality Level 比 NODE_LOCAL 慢。

2、Locality Level 知识点介绍

  • PROCESS_LOCAL: 数据在同一个 JVM 中,即同一个 executor 上。这是最佳数据 locality,也是用户期望看到的。
  • NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上;或在 HDFS 上,恰好有 block 在同一个节点上。速度比 PROCESS_LOCAL 稍慢,因为数据需要在不同进程之间传递或从文件中读取。

http://www.kler.cn/a/402784.html

相关文章:

  • LSA1类和2类区别
  • mayo介绍和QTqmake编译基于Opencascade开发的mayo工程-小白配置
  • C++格式化输入输出【练习版】
  • 设计模式之 观察者模式
  • Kafka 分区分配及再平衡策略深度解析与消费者事务和数据积压的简单介绍
  • 006-自定义枚举注解
  • 【C++】绘制内存管理的地图
  • web服务nginx实验6:nginx发布动态页面的方法
  • golang开源框架:命令行框架cobra
  • 指南: 如何在 MEV 项目中使用 Yul
  • 如何提高代理IP的并发能力
  • GPT promote 论文学术润色提示词
  • 【再谈设计模式】适配器模式 ~接口兼容的桥梁
  • 单条推理转批量推理prompt
  • AI应用中基于okhttp3实现SSE技术的各种解决方案实现
  • MySQL排序与分页
  • kali打开复制粘贴功能
  • python serializer, model drf通过序列化器, 模型获取mysql 一张表某个字段数据库现存的最大值
  • UE5 第一人称射击项目学习(三)
  • SSM全家桶 1.Maven
  • 联邦学习安全聚合算法综述(论文解析)以及如何确定自己研究方向的方法
  • 高频面试-cookie, token, session
  • Feed流系统重构:架构篇
  • 力扣整理版八:回溯算法(待更新)
  • 3C产品说明书电子化转变:用户体验、环保与商业机遇的共赢
  • 使用 Oracle.DataAccess.Client 驱动 和 OleDB 调用Oracle 函数的区别