当前位置：首页 > article >正文

数据分析：pandas.skew 复现

article 2025/2/9 2:16:46

最近由于使用 pandas 和 numpy做数据分析，以及需要把算法迁移到go上，发现了pandas 在处理一些统计项的时候，其中的参数的default 和numpy里面有问题，做个记录。

pandas.skew实现（rolling 同理）

import pandas as pd

# 示例数据
data = pd.Series([1, 2, 3, 4, 5,6, 7, 8, 9, 10, 50])
skewness_pandas = data.skew()
print(f"Pandas Skewness: {skewness_pandas}")

Pandas Skewness: 3.0536609583638397

拆公式直接实现（numpy）

import numpy as np

def calculate_skew_manual(series: pd.Series) -> float:
    """
    手动计算时序数据的偏度（Skewness），完全匹配 pandas 的 skew 方法。
    """
    data = series.dropna()  # 去除缺失值
    n = len(data)           # 样本量

    mean = np.mean(data)   # 计算均值
    std = np.std(data,ddof= 0)  # 使用样本标准差 (ddof=0)
    numerator = np.mean((data - mean) ** 3)  # 分子
    denominator = std ** 3  # 分母

    # 偏度校正因子
    correction_factor = np.sqrt(n * (n - 1)) / (n - 2)
    skewness = correction_factor * (numerator / denominator)
    return skewness

# 示例数据
data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 50])
skewness_manual = calculate_skew_manual(data)
print(f"Manual Skewness (matching pandas): {skewness_manual}")


Manual Skewness (matching pandas): 3.05366095836384

该复现过程存在两个问题

（1）自由度

计算标准差/方差的时候需要设置自由度 ddof 参数，如上 np.std(data,ddof=0)

这里我最开始看了一下 dataframe 的 std 方法和 np.std方法。发现ddof 的default 如下：

data.std(
    axis=None,
    skipna=True,
    level=None,
    ddof=1,
    numeric_only=None,
    **kwargs,
)

np.std(
    a,
    axis=None,
    dtype=None,
    out=None,
    ddof=0,
    keepdims=<no value>,
    *,
    where=<no value>,
)

然而 直接调用 dataframe 的 skew 方法，ddof default 为0

所以在使用numpy或者直接使用 data.std()的时候，把ddof 设置为0

（2）偏度校正因子

在样本量较小时，直接用样本数据计算的偏度可能会低估或高估总体的偏度。这是因为：