当前位置：首页 > article >正文

Python 数学建模——Pearson/Spearman 相关系数

article 2024/11/15 19:39:33

文章目录

- 前言
- 原理
- 关于 $p$ 值
- Pearson 相关系数代码实例
- Spearman 相关系数代码实例
- - 求相关系数
  - 求相关系数矩阵

前言

相关系数尝尝用来衡量两个数值变量之间是否存在某种关系。我们常说的“正相关”“负相关”就是这种相关关系。而相关系数的绝对值大小体现了相关关系的强弱。本文将介绍两种相关系数（Pearson 相关系数和 Spearman 相关系数）以及它们的 Python 求取。
区别：Spearman 相关系数判定两个变量之间的趋势关系，即“同增同减”的趋势程度。相比而言，Pearson 相关系数判定两个变量之间的线性关系，囊括“趋势”的同时还衡量“线性关系”。

原理

Pearson 相关系数评估两个连续变量之间的线性关系，仅当 $x, y$ 服从正态分布时该相关系数才具有一定意义。计算依据是：
$\rho=\frac{Cov(x,y)}{{{\sigma }_{x}}{{\sigma }_{y}}}=\frac{\sum_{i=1}^{n}{(}{{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}{\sqrt{\sum_{i=1}^{n}{(}{{x}_{i}}-\bar{x}{{)}^{2}}}\sqrt{\sum_{i=1}^{n}{(}{{y}_{i}}-\bar{y}{{)}^{2}}}}$

Spearman 相关系数是一种秩相关系数，又称等级相关系数，反映的是两个随机变量的的变化趋势方向和强度之间的关联，是将两个随机变量的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据而求得的一种统计量。计算方式是：
$r=\frac{Cov(x,y)}{{{\sigma }_{x}}{{\sigma }_{y}}}=\frac{\sum_{i=1}^{n}{(}{{\hat x}_{i}}-\bar{\hat x})({{\hat y}_{i}}-\bar{\hat y})}{\sqrt{\sum_{i=1}^{n}{(}{{\hat x}_{i}}-\bar{\hat x}{{)}^{2}}}\sqrt{\sum_{i=1}^{n}{(}{{\hat y}_{i}}-\bar{\hat y}{{)}^{2}}}}$

其中， $\hat x_i$ 是 $x_i$ 在 $x$ 中从小到大的排名。例如 $x = [1, 1, 4, 5, 1, 4]$ ，则 $\hat x=[1,1,2,3,1,2]$ 。

参考文献：Pearson 相关方法和 Spearman 相关方法的比较 - Minitab

关于 $p$ 值

在获取到相关系数后，还需要看对应的 $p$ 值。当 $p$ 值异常时，相关系数 $r$ （或者 $\rho$ ）再大也不能认为两个变量具有明显的相关关系，因为相关系数大可能是偶然性引起的。
这个 $p$ 值的含义是相关关系的不显著性水平，是基于假设检验方法计算出来的，接受“两变量之间不存在线性关联”这一假设的概率。通常取 $0.05$ 为阈值，当 $p < 0.05$ 时即可认为两个变量存在显著的线性关系。

Pearson 相关系数代码实例

这里直接放求相关系数矩阵的代码：

import numpy as np
import pandas as pd

data = np.array([[1, 2, 3], [4, 5, 6],[11, 25, 346], [734, 48, 49]])

print(np.corrcoef(data)) # 返回一个浮点矩阵，好像没有 p 值

实际上，scipy.stats.pearsonr貌似也可以求 Pearson 相关系数，还能给出 $p$ 值。感兴趣的读者可以试试看，使用方法和下文求取 Spearman 相关系数的代码实例类似。

Spearman 相关系数代码实例

求相关系数

两个维度的观测数据 $x_1,x_2$ 的相关系数求取：

import numpy as np
from scipy import stats

X1 = [3, 5, 1, 6, 7, 2, 8, 9, 4]
X2 = [5, 3, 2, 6, 8, 1, 7, 9, 4]

corr, p_value = stats.spearmanr(X1,X2) # 返回两个浮点值
print(corr,p_value)

结果是corr = 0.9，p_value = 0.0009430623223403293。

求相关系数矩阵

如果是多个维度的观测数据 $x_1,x_2,\cdots,x_n$ ，其中每个维度的数据均有多个观测值 ${x_i}=[{{x}_{i1}},{{x}_{i2}},\cdots ,{{x}_{im}}]$ ，可以按照下面的用法得到两两之间的 Spearman 相关系数 $r(x_i,x_j)$ ：

import numpy as np
import pandas as pd
from scipy import stats

df = pd.DataFrame({
    '第一维': [1, 1, 4, 5, 1, 4],
    '第二维': [1, 9, 1, 9, 8, 1],
    '第三维': [1, 3, 1, 4, 0, 0]
})

corr_matrix, p_value_matrix = stats.spearmanr(df) # 返回两个浮点矩阵
print(corr_matrix, p_value_matrix)

结果如下所示，这里第二维与第三维之间的相关系数达到了0.63564173，但是 $p$ 值为0.17494988，不认为他们之间具有显著相关性。

[[1.         0.03333333 0.31782086]
 [0.03333333 1.         0.63564173]
 [0.31782086 0.63564173 1.        ]]

[[0.00000000e+00 9.50018519e-01 5.39320264e-01]
 [9.50018519e-01 0.00000000e+00 1.74949881e-01]
 [5.39320264e-01 1.74949881e-01 1.84889275e-32]]

查看全文

http://www.kler.cn/a/308224.html