当前位置: 首页 > article >正文

Pyspark中pyspark.sql.functions常用方法(4)

文章目录

  • pyspark sql functions
    • forall 判断array是否满足all
    • filter 过滤
    • zip_with 数组合并

pyspark sql functions

forall 判断array是否满足all

df = spark.createDataFrame(
    [(1, ["bar"]), (2, ["foo", "bar"]), (3, ["foobar", "foo"])],
    ("key", "values")
)
df.show()
+---+-------------+
|key|       values|
+---+-------------+
|  1|        [bar]|
|  2|   [foo, bar]|
|  3|[foobar, foo]|
+---+-------------+
df.select(forall("values", lambda x: x.rlike("foo")).alias("all_foo")).show()
+-------+
|all_foo|
+-------+
|  false|
|  false|
|   true|
+-------+

filter 过滤

df = spark.createDataFrame([([1, None, 2, 3],), ([4, 5, None, 4],)], ['data'])
df.show()
+---------------+
|           data|
+---------------+
|[1, null, 2, 3]|
|[4, 5, null, 4]|
+---------------+
df.select(fs.filter(df.data,lambda x: x>1).alias('filter')).show()
+---------+
|   filter|
+---------+
|   [2, 3]|
|[4, 5, 4]|
+---------+

zip_with 数组合并

使用函数将两个给定的数组按元素合并为一个数组。如果一个数组较短,则在应用函数之前,在末尾附加null以匹配较长数组的长度。

df.select(fs.zip_with("xs", "ys", lambda x, y: x ** y).alias("powers")).show(truncate=False)
+---------------------------+
|powers                     |
+---------------------------+
|[1.0, 9.0, 625.0, 262144.0]|
+---------------------------+

http://www.kler.cn/news/363322.html

相关文章:

  • 实践OpenVINO™ GenAI
  • 【react 和 vue】 ---- 实现组件的递归渲染
  • 外包干了2个月,技术明显退步
  • GEE数据集:1984-2022 年间加拿大 6.5 亿公顷森林生态系统的年度优势树种(也称主要树种)地图
  • Django从请求到响应
  • Linux-基础命令及相关知识2
  • 机器学习运维(MLOps)
  • 考研篇——数据结构王道3.2.3_队列的链式实现
  • 2025年考PMP大概需要多少钱?提前了解!
  • 【计算机网络 - 基础问题】每日 3 题(四十六)
  • MBI6665Q聚积升降压LED驱动芯片车规级AEC-Q100认证
  • 从0开始深度学习(15)——权重衰退法(L2正则化)
  • 5. AOP
  • 口含烟贴纸设计公司哪家好?
  • docker之redis安装(项目部署准备)
  • 从 0 开发一个系统
  • 渗透测试+oneforall+nmap+zenmap+7kbscan+dic+pkav+御剑+netcat
  • 吴伟仁《英国文学史及选读》第一二册课后答案PDF
  • 基于vue框架的的高校设备信息管理系统的设计与实现tx6d7(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
  • Python | Leetcode Python题解之第496题下一个更大元素I
  • NCU-机器学习-作业4:基于XGboost的收入分类预测
  • 我记不住的那些表达式求值
  • 决策树与随机森林在分类问题中的应用
  • 【C++】——多态(上)
  • Java 监听器示例(非界面)
  • 华为ICT题库-大数据部分