当前位置：首页 > article >正文

Python Pandas轻松实现函数式编程

article 2025/2/25 12:07:28

大家好，Pandas库是Python中处理数据的强大工具，支持多种数据处理操作。函数式编程是Pandas的重要特点之一，它可以使用函数对整个数据集、某列或某行进行操作，applymap和apply是其中两个常用的函数。applymap适用于逐元素操作，而apply可以应用于行或列的聚合操作。本文将介绍这两个函数的用法，并结合示例代码展示如何在数据处理中灵活应用它们。

函数式编程是一种将函数视为“第一类对象”的编程范式。与传统的面向对象编程不同，函数式编程强调通过函数操作数据，这使得代码更加简洁和高效。在Pandas中，apply和applymap函数通过传递函数来处理数据，减少对for循环的依赖，从而提高代码的可读性和性能。

`1.applymap`函数

applymap函数用于对DataFrame中的每个元素应用函数。它适用于需要对每个单元格进行逐个操作的场景，例如将所有元素取平方或格式化数据。

DataFrame.applymap(func)

func：传递一个函数，该函数将应用到DataFrame中的每个元素。

可以创建一个DataFrame，并使用applymap将所有数值乘以2。

import pandas as pd
import numpy as np

# 创建示例DataFrame
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=list('ABCDE'))

print("原始数据：")
print(df)

# 使用applymap将每个元素乘以2
df_multiplied = df.applymap(lambda x: x * 2)

print("\n所有元素乘以2后的数据：")
print(df_multiplied)

在这个例子中，applymap遍历了整个DataFrame的每个元素，并将元素的值乘以2。对于需要逐元素进行操作的情况，applymap是非常高效的选择。

有时可能需要格式化DataFrame中的数值，比如将浮点数格式化为两位小数。

# 创建包含浮点数的DataFrame
df_float = pd.DataFrame(np.random.randn(3, 3), columns=list('XYZ'))

print("原始浮点数数据：")
print(df_float)

# 使用applymap格式化为两位小数
df_formatted = df_float.applymap(lambda x: f"{x:.2f}")

print("\n格式化为两位小数后的数据：")
print(df_formatted)

在这个示例中，applymap将每个元素转换为字符串，并限制为两位小数。通过这种方式，applymap可以对DataFrame的所有元素进行统一格式化处理。

`2.apply`函数

apply函数与applymap的区别在于，它可以应用于DataFrame的行或列，而不是逐个元素。apply函数可以用来对行或列进行聚合操作或自定义运算。

DataFrame.apply(func, axis=0)

func：传递的函数，应用于DataFrame的行或列。
axis：指定函数应用的轴。axis=0表示按列应用函数，axis=1表示按行应用函数。

如果想对DataFrame中的每一列进行求和，可以使用apply函数。

# 对每一列求和
column_sum = df.apply(np.sum, axis=0)
print("\n按列求和：")
print(column_sum)

在这个示例中，apply对每一列应用np.sum()函数，计算出每列的总和。还可以使用apply来对每一行的值进行操作，例如找到每一行的最大值。

# 对每一行求最大值
row_max = df.apply(np.max, axis=1)
print("\n每一行的最大值：")
print(row_max)

apply函数在此按行执行np.max()，返回每一行的最大值。通过更改axis的值，可以轻松地切换函数的应用维度。

除了内置的Numpy函数外，apply函数还可以应用自定义函数。假设想要计算每行或每列的均值并判断是否大于某个阈值。

# 自定义函数：计算均值并判断是否大于5
def mean_above_threshold(series):
    return series.mean() > 5

# 按列应用自定义函数
column_check = df.apply(mean_above_threshold, axis=0)
print("\n按列判断均值是否大于5：")
print(column_check)

在这个例子中，apply函数按列计算每列的均值，并判断该均值是否大于5，结果返回一个布尔值。

`3.apply`与`applymap`的区别

applymap只能作用于DataFrame的每个元素，而apply可以作用于行或列。如果需要对每个元素进行相同的操作，如格式化、取平方等，使用applymap；如果需要对某一行或某一列进行聚合或更复杂的操作，如求和、均值等，使用apply。

# 使用applymap进行逐元素操作
df_squared = df.applymap(lambda x: x ** 2)
print("\n使用applymap进行逐元素平方：")
print(df_squared)

# 使用apply按列求平方和
column_square_sum = df.apply(lambda col: np.sum(col ** 2), axis=0)
print("\n使用apply按列求平方和：")
print(column_square_sum)

在上述示例中，applymap对每个元素进行平方操作，而apply则按列计算平方和。两者的功能在不同的场景下各有优势。

4.性能与优化

在处理大数据集时，函数式编程中的apply和applymap可能会影响性能。为了提升性能，可以优先使用向量化操作，而不是依赖apply和applymap。向量化操作通过Pandas底层的C和Cython实现，通常比Python层面的函数式编程更快。

import time

# 创建较大的DataFrame
large_df = pd.DataFrame(np.random.randn(10000, 100))

# 使用apply计算每列的平方和
start_time = time.time()
large_df.apply(lambda col: np.sum(col ** 2), axis=0)
print("使用apply耗时：", time.time() - start_time)

# 使用向量化操作计算每列的平方和
start_time = time.time()
(large_df ** 2).sum(axis=0)
print("使用向量化操作耗时：", time.time() - start_time)

通过对比可以看到，向量化操作在处理大数据集时的性能通常优于apply函数。因此，在可能的情况下，应该优先选择向量化方法。

综上所述，通过applymap，可以对DataFrame中的每个元素进行操作；而apply按行或列应用函数，适用于聚合操作或自定义处理。在不同场景下要选择合适的函数，通过向量化操作可以提升性能。掌握这两个函数的使用，可以在处理数据时编写更加简洁、高效的代码。

查看全文

http://www.kler.cn/a/327871.html