当前位置: 首页 > article >正文

PySpark检查两个DataFrame的数据是否一致

数据条数比较

可以使用 count() 方法来获取每个DataFrame的行数,若行数不同,则数据肯定不一致。示例代码如下:

df1 = spark.createDataFrame([(1, 'a'), (2, 'b')], ['id', 'name'])
df2 = spark.createDataFrame([(1, 'a'), (2, 'b'), (3, 'c')], ['id', 'name'])

if df1.count()!= df2.count():
    print("两个DataFrame数据条数不一致")

数据排序后比较

先对两个DataFrame按照相同的列进行排序,再将它们转换为RDD,然后使用 zip 函数将两个RDD的元素一一对应地组合成元组,最后检查每个元组中的两个元素是否相等。示例代码如下:

sorted_df1 = df1.sort('id')
sorted_df2 = df2.sort('id')

rdd1 = sorted_df1.rdd
rdd2 = sorted_df2.rdd

if all(x == y for x, y in rdd1.zip(rdd2)):
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")

数据差值比较

使用 subtract 方法获取两个DataFrame的差值,如果差值DataFrame为空,则说明两个DataFrame数据一致。示例代码如下:

diff_df1 = df1.subtract(df2)
diff_df2 = df2.subtract(df1)

if diff_df1.count() == 0 and diff_df2.count() == 0:
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")

数据哈希值比较

计算每个DataFrame中每行数据的哈希值,然后比较两个DataFrame的哈希值集合是否相等。示例代码如下:

from pyspark.sql.functions import hash

hashed_df1 = df1.select(hash(*df1.columns).alias('hash_value'))
hashed_df2 = df2.select(hash(*df2.columns).alias('hash_value'))

hash_set1 = set(hashed_df1.rdd.flatMap(lambda x: x).collect())
hash_set2 = set(hashed_df2.rdd.flatMap(lambda x: x).collect())

if hash_set1 == hash_set2:
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")

http://www.kler.cn/a/554820.html

相关文章:

  • 跨语言语义理解与生成:多语言预训练方法及一致性优化策略
  • 蓝桥杯(B组)-每日一题(1093字符逆序)
  • c语言[递归]母牛的故事,有一头母牛,它每年年初生一头小母牛。每头小母牛从第四个年头开始,每年年初也生一头小母牛。请编程实现在第n年的时候,共有多少头母牛?
  • 【Axure高保真原型】拖动画图——画矩形案例
  • 基于PostGIS在PostgreSQL数据中实现按照百分比或面积将多边形分割为多个
  • 编写测试计划的六大要素是什么
  • 高效管理 React 状态和交互:我的自定义 Hooks 实践
  • Spring AI如何调用Function Calling
  • 在 Android 开发中如何接入 DeepSeek 聊天工具
  • conda简单命令
  • Hadoop-HA(高可用)机制
  • GPT2 模型训练
  • python中的Pillow 库安装后需要重启吗?
  • Linux系统上同时打印到物理打印机并生成PDF副本方法研究
  • 鸿蒙NEXT开发-网络管理
  • 微信小程序地图map全方位解析
  • Flask 发送邮件
  • 处理哈希冲突
  • 地面沉降监测,为地质安全保驾护航
  • 网络安全 逆向 apk 网络安全逆向分析