当前位置：首页 > article >正文

SparkJDBC读写数据库实战

article 2025/2/21 3:37:59

默认的操作

代码

val df = spark.read
  .format("jdbc")
  .option("url", "jdbc:postgresql://localhost:5432/testdb")
  .option("user", "username")
  .option("password", "password")
  .option("driver", "org.postgresql.Driver")
  .option("dbtable", "test_table")
  .load()

讲解
上面这种默认情况使用jdbc driver读数据库（如pg库），仅仅会使用一个task读数据，也就是只有一个分区。要证明这一点可以通过两种方式：

查看web ui

你会看到只有一个task。
通过getNumPartitions方法
```
int numPartitions = ds.rdd().getNumPartitions();
```
你会看到numPartitions=1。

对数值、日期、时间戳字段分区

spark当然不可能只能用一个task读数据库，这样如果数据库数据量大了，效率将会非常低，官方提供了一些参数，可以控制并发读取数据库任务的数量。
想了解所有的参数，

http://www.kler.cn/a/233339.html

相关文章：

c#表达式树(MemberInitExpression)成员初始化表达式

工厂方法模式(Factory Method Pattern)

【开源计算机视觉库OpencV详解——超详细】

【Scala】 2. 函数

containerd中文翻译系列(十)镜像验证

《PCI Express体系结构导读》随记 —— 第II篇第4章 PCIe总线概述（11）

Python学习路线 - Python高阶技巧 - PySpark案例实战

Javaweb之SpringBootWeb案例之异常处理功能的详细解析

C#中的浅度和深度复制（C#如何复制一个对象）

深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案

UI自动化之Poco常用断言方式

RCE（命令执行）知识点总结最详细

[day0] 借着“ai春晚”开个场

单片机学习笔记---LED点阵屏显示图形动画

从零开发短视频电商 Tesseract OCR 的 Java 拓展库 javacpp-presets

计算机网络（第六版）复习提纲25

Windows 远程桌面提示没有远程桌面授权服务器可以提供许可证

Unity3D实现项目限制功能（使用次数限制和时间限制）

【C++】引用与内联

【Flink】SQL-CLIENT中出现 Could not find any factory for identifier ‘kafka‘