当前位置: 首页 > article >正文

使用Spark SQL读取阿里云OSS的数据

读OSS数据

创建一个table,并关联OSS目录路径

CREATE TABLE my_table
USING parquet
OPTIONS (
  path 'oss://my_bucket/my_data_dir/dt=20230904',  -- 关联OSS路径
  header 'true', -- 如果Parquet文件包含列名的头部信息,则设置为'true',否则设置为'false'
  inferSchema 'true' -- 自动推断Parquet文件的模式
);

如果数据文件是Parquet格式的,可以自动推断出表的schema,很方便。

这样就可以使用sql语句读取数据了。

DESC my_table;
SELECT * FROM my_table limit 50;

写OSS数据

首先创建一个关联OSS目录的database:

--drop database if exists keepdb CASCADE;  -- 注意这个drop操作会删除OSS上对应目录下的数据,谨慎!!!

create database if not exists my_db location 'oss://my_bucket.oss-cn-beijing-internal.aliyuncs.com/my-data-dir';

现在就可以通过sql写入数据到OSS了,如下:

use my_db;

create table my_oss_table like my_table;

insert overwrite table my_oss_table
select * from my_table;

http://www.kler.cn/a/133380.html

相关文章:

  • 【大模型实战篇】vLLM的由来以及大模型部署、推理加速实践
  • python makedirs() 详解
  • python selenium库的使用:通过兴趣点获取坐标
  • YOLO系列基础(七)从数据增强到图像线性变换
  • `node-gyp` 无法找到版本为 `10.0.19041.0` 的 Windows SDK
  • 穿越数据迷宫:C++哈希表的奇幻旅程
  • 最强人工智能ChatGPT引领AIGC发展
  • 294_C++_报警状态bit与()上通道bit,然后检测置位的通道,得到对应置位通道的告警信息,适用于多通道告警,组成string字符串发送
  • C语言绘图
  • Lambda表达式(附有案例)
  • 【无标题】乐观与悲观
  • Python基础入门例程61-NP61 牛牛的矩阵相加(循环语句)
  • 英语 有空就更新
  • 06.webpack性能优化--构建速度
  • UnitTest + Selenium 完成在线加法器自动化测试
  • C#创建AutoMapper的映射配置
  • debian10 开启rdp安装firefox,firefox 中文乱码
  • 设计模式(一)-简要概述(2)
  • 时序预测 | Python实现ConvLSTM卷积长短期记忆神经网络股票价格预测(Conv1D-LSTM)
  • 01Urllib
  • 【Java】ArrayList和LinkedList使用不当,性能差距会如此之大!
  • Web(5)Burpsuite之文件上传漏洞
  • VMware vSphere 中的 DRS(分布式资源调度)、HA(高可用性)和Fault Tolerance(FT,容错)区别
  • CI/CD - jenkins
  • python项目源码基于django的宿舍管理系统dormitory+mysql数据库文件
  • CF1514 C. Product 1 Modulo N [妙妙题]