当前位置：首页 > article >正文

使用Spark SQL读取阿里云OSS的数据

article 2025/1/31 8:06:47

读OSS数据

创建一个table，并关联OSS目录路径

CREATE TABLE my_table
USING parquet
OPTIONS (
  path 'oss://my_bucket/my_data_dir/dt=20230904',  -- 关联OSS路径
  header 'true', -- 如果Parquet文件包含列名的头部信息，则设置为'true'，否则设置为'false'
  inferSchema 'true' -- 自动推断Parquet文件的模式
);

如果数据文件是Parquet格式的，可以自动推断出表的schema，很方便。

这样就可以使用sql语句读取数据了。

DESC my_table;
SELECT * FROM my_table limit 50;

写OSS数据

首先创建一个关联OSS目录的database:

--drop database if exists keepdb CASCADE;  -- 注意这个drop操作会删除OSS上对应目录下的数据，谨慎！！！

create database if not exists my_db location 'oss://my_bucket.oss-cn-beijing-internal.aliyuncs.com/my-data-dir';

现在就可以通过sql写入数据到OSS了，如下：

use my_db;

create table my_oss_table like my_table;

insert overwrite table my_oss_table
select * from my_table;

查看全文

http://www.kler.cn/a/133380.html

MySQL备忘录

ES2021+新特性、常用函数

Vue.js `setup()` 函数的使用

openeuler 22.03 lts sp4 使用 cri-o 和静态 pod 的方式部署 k8s-v1.32.0 高可用集群

再见了流氓软件~~

【apt源】RK3588 平台ubuntu20.04更换apt源

最强人工智能ChatGPT引领AIGC发展

294_C++_报警状态bit与()上通道bit，然后检测置位的通道，得到对应置位通道的告警信息，适用于多通道告警，组成string字符串发送

C语言绘图

Lambda表达式（附有案例）

【无标题】乐观与悲观

Python基础入门例程61-NP61 牛牛的矩阵相加(循环语句)

英语有空就更新

06.webpack性能优化--构建速度

UnitTest + Selenium 完成在线加法器自动化测试

C#创建AutoMapper的映射配置

debian10 开启rdp安装firefox，firefox 中文乱码

设计模式（一）-简要概述（2）

时序预测 | Python实现ConvLSTM卷积长短期记忆神经网络股票价格预测（Conv1D-LSTM）

01Urllib

【Java】ArrayList和LinkedList使用不当，性能差距会如此之大！

Web(5)Burpsuite之文件上传漏洞

VMware vSphere 中的 DRS（分布式资源调度）、HA（高可用性）和Fault Tolerance（FT，容错）区别

CI/CD - jenkins

python项目源码基于django的宿舍管理系统dormitory+mysql数据库文件

CF1514 C. Product 1 Modulo N [妙妙题]

读OSS数据

写OSS数据

相关文章：