当前位置: 首页 > article >正文

SparkSession介绍

一、 介绍

  1. SparkSession是Spark 2.0中引入的新概念,它是Spark SQL、DataFrame和Dataset API的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;
  2. 它将以前的SparkContext、SQLContext和HiveContext组合在一起,使得用户可以在一个统一的接口下使用Spark的所有功能。
  3. 需要注意的是,SparkSession是一个重量级的对象,创建和销毁的代价较高,因此在项目中应该尽可能地重用同一个SparkSession对象。
  4. 在I/O期间,在构建器中设置的配置项将自动同步到Spark和Hadoop。

二、如何使用

# 在项目中初始化SparkSession,可以按照以下步骤进行:
# 1、导入必要的包:
import org.apache.spark.sql.SparkSession
# 2、创建SparkSession对象:
val spark = SparkSession
      .builder  # 使用builder()方法创建一个SparkSession.Builder对象,构建器将自动重用现有的SparkSession;如果不存在则会创建一个SparkSession
      .appName("xxx")
      .config("hive.exec.dynamic.partition", "true")  # 设置分区
      .config("hive.exec.dynamic.partition.mode", "nonstrict") # 设置hive是动态写入的方式
      .config("spark.sql.broadcastTimeout", 3000)
      .config("spark.sql.sources.partitionOverwriteMode", "dynamic")  # 设置hive动态写分区
      .config("spark.checkpoint.dir", "/user/vc/projects_prod/checkpoint/data")  # 设置checkpoint的路径
      .enableHiveSupport()
      .getOrCreate()

# 3、使用SparkSession对象进行数据操作:
val df = spark.read.json("path/to/json/file")
df.show()

三、sparkSession的配置参数参考
https://blog.csdn.net/u010569893/article/details/111356664


http://www.kler.cn/a/147755.html

相关文章:

  • 三维动画的常用“视觉特效”有哪些?
  • python通过正则匹配SQL
  • ffmpeg之播放一个yuv视频
  • 【Yonghong 企业日常问题 06】上传的文件不在白名单,修改allow.jar.digest属性添加允许上传的文件SH256值?
  • idea设置控制台日志输出自动换行
  • 一网多平面
  • Docker入门教程
  • java:/comp/env/jdbc/testDbJndi通过JAVA代码读取JNDI获取数据源
  • C++之哈希
  • 软件设计先进性之虚拟化技术的应用
  • 计算机网络(超详解!) 第一节计算机网络的性能指标
  • DELPHI开发APP回忆录二安卓与pc端路径的选择
  • C语言--根据成绩判断等级
  • String类讲解(1)
  • 一文例说嵌入式 C 程序的内聚和耦合
  • Git学习笔记01
  • 基于单片机体温心率脉搏检测仪系统设计
  • 利用ogr2ogr从PostGIS中导出/导入Tab/Dxf/Geojson等格式数据
  • 十八数藏的文化数字革新:传统之美的数字转变
  • C#简化工作之实现网页爬虫获取数据
  • 软件工程 课后题 acmakb 总结
  • pgsql常用命令总结
  • SpringBoot——自定义start
  • k8s中安装consul集群
  • zlmediakit实现rtsp流服务器
  • 健全隧道健康监测,保障隧道安全管理