当前位置: 首页 > article >正文

spark3.3.x处理excel数据

环境:
spark3.3.x
scala2.12.x
引用:
spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar
或项目里配置pom.xml

<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency>
    <groupId>com.crealytics</groupId>
    <artifactId>spark-excel_2.12</artifactId>
    <version>3.3.1_0.18.5</version>
</dependency>

代码:
1、直接使用excel文件第一行作为schema

val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "true") // 该版本的包将useHeader改成了header
     .load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

// 自定义schema
val schema = StructType(List(
    StructField("uid", StringType, nullable = true),
    StructField("name", StringType, nullable = true)
))
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "false") // 使用自定义schema,所以设置为false
     .option("dataAddress", "'Sheet1'!A2:B2") // 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列)
     .schema(schema)
     .load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常


http://www.kler.cn/news/107762.html

相关文章:

  • 【Python机器学习】零基础掌握RandomForestClassifier集成学习
  • 小程序原生开发中的onLoad和onShow
  • Games104现代游戏引擎笔记 网络游戏进阶架构
  • Spring定时任务+webSocket实现定时给指定用户发送消息
  • SpringBoot内置工具类之断言Assert的使用与部分解析
  • CVPR2023新作:基于组合空时位移的视频修复
  • Tensorflow2 中模型训练标签顺序和预测结果标签顺序不一致问题解决办法
  • Jmeter调用Python脚本实现参数互相传递的实现
  • leetcode做题笔记204. 计数质数
  • Day13力扣打卡
  • java 读取pdf文件内容
  • 2023年香水行业数据分析:国人用香需求升级,高端香水高速增长
  • 【神印王座】易军献身为林鑫挡箭,万万没想到林鑫太坑,大跌眼镜
  • LLM在text2sql上的应用 | 京东云技术团队
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (四)
  • 听GPT 讲Rust源代码--library/std(7)
  • docker与宿主机共享内存通信
  • css正确的语法
  • 微服务-Feign
  • 决定放弃uniapp开发了,因为它实在是没有taro友好
  • 银河麒麟v10x86或者arm离线安装服务
  • 【Python入门教程】基于OpenCV视频分解成图片+图片组合成视频(视频抽帧组帧)
  • CentOS 使用线程库Pthread 库
  • 美颜SDK集成指南:为应用添加视频美颜功能
  • Kubernetes(K8s)从入门到精通系列之十八:使用 Operator Lifecycle Manager(OLM) 安装operator
  • 设计模式之桥梁模式
  • 系统日志记录注解方式动态记录
  • 【psychopy】【脑与认知科学】认知过程中的面孔识别加工
  • [SpringCloud] Nacos 简介
  • 重要环节不可忽视,CSS性能优化引领用户体验!