当前位置: 首页 > article >正文

SparkJDBC读写数据库实战

默认的操作

  1. 代码
    val df = spark.read
      .format("jdbc")
      .option("url", "jdbc:postgresql://localhost:5432/testdb")
      .option("user", "username")
      .option("password", "password")
      .option("driver", "org.postgresql.Driver")
      .option("dbtable", "test_table")
      .load()
    
  2. 讲解
    上面这种默认情况使用jdbc driver读数据库(如pg库),仅仅会使用一个task读数据,也就是只有一个分区。要证明这一点可以通过两种方式:
  • 查看web ui
    在这里插入图片描述
    你会看到只有一个task。
  • 通过getNumPartitions方法
    int numPartitions = ds.rdd().getNumPartitions();
    
    你会看到numPartitions=1。

对数值、日期、时间戳字段分区

spark当然不可能只能用一个task读数据库,这样如果数据库数据量大了,效率将会非常低,官方提供了一些参数,可以控制并发读取数据库任务的数量。
想了解所有的参数,


http://www.kler.cn/a/233339.html

相关文章:

  • LabVIEW大数据处理
  • 2411d,右值与移动
  • 408模拟卷较难题(无分类)
  • (六)Spark大数据开发实战:豆瓣电影数据处理与分析(scala版)
  • Ubuntu配置阿里云docker apt源
  • 使用 Keras 训练一个卷积神经网络(CNN)(入门篇)
  • c#表达式树(MemberInitExpression)成员初始化表达式
  • 工厂方法模式(Factory Method Pattern)
  • 【开源计算机视觉库OpencV详解——超详细】
  • 【Scala】 2. 函数
  • containerd中文翻译系列(十)镜像验证
  • 《PCI Express体系结构导读》随记 —— 第II篇 第4章 PCIe总线概述(11)
  • Python学习路线 - Python高阶技巧 - PySpark案例实战
  • Javaweb之SpringBootWeb案例之异常处理功能的详细解析
  • C#中的浅度和深度复制(C#如何复制一个对象)
  • 深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案
  • UI自动化之Poco常用断言方式
  • RCE(命令执行)知识点总结最详细
  • [day0] 借着“ai春晚”开个场
  • 单片机学习笔记---LED点阵屏显示图形动画
  • 从零开发短视频电商 Tesseract OCR 的 Java 拓展库 javacpp-presets
  • 计算机网络(第六版)复习提纲25
  • Windows 远程桌面提示没有远程桌面授权服务器可以提供许可证
  • Unity3D实现项目限制功能(使用次数限制和时间限制)
  • 【C++】引用与内联
  • 【Flink】SQL-CLIENT中出现 Could not find any factory for identifier ‘kafka‘