当前位置：首页 > article >正文

【漫话机器学习系列】133.决定系数（R²：Coefficient of Determination）

article 2025/3/13 6:55:40

决定系数（ $R^2$ ）是回归分析中用于评估模型拟合优度的一个重要统计指标。它表示自变量（特征变量）能够解释因变量（目标变量）变异的程度，取值范围为 [0,1] 或 (−∞,1]（取决于模型情况）。在本篇文章中，我们将详细解析 $R^2$ 的数学公式、直观理解、计算方法及其在回归分析中的应用。

决定系数的公式如下：

$R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$

其中：

$y_i$ ：真实值（True Y）
$\hat{y}_i$ ：模型预测值（Predicted Y）
$\bar{y}$ ：真实值的均值（Mean True Y）
$\sum (y_i - \hat{y}_i)^2$ ：残差平方和（Residual Sum of Squares, RSS），衡量模型预测值与真实值之间的误差。
$\sum (y_i - \bar{y})^2$ ：总平方和（Total Sum of Squares, TSS），衡量目标变量本身的方差。

$RSS = \sum (y_i - \hat{y}_i)^2$

这一项表示模型预测值与真实值之间的误差。误差越大，模型拟合效果越差。

$TSS = \sum (y_i - \bar{y})^2$

它表示目标变量本身的方差，即目标变量 Y 的离散程度。总平方和衡量的是如果我们用均值 $\bar{y}$ 作为预测值，而不使用任何回归模型时的误差。

R2R^2R2 可以理解为：

如果 $R^2 = 1$ ，则：

$\sum (y_i - \hat{y}_i)^2 = 0$

即所有预测值完全等于真实值，说明模型完美拟合数据。但这种情况在现实中极少出现，通常发生在过拟合时。

如果 $R^2 = 0$ ，则：

$\sum (y_i - \hat{y}_i)^2 = \sum (y_i - \bar{y})^2$

表示模型预测的误差与直接使用均值预测的误差相同，说明模型没有任何预测能力。

理论上 $R^2$ 不会小于 0，但在某些情况下（如使用不适合的数据或非线性模型时），可能出现 $R^2 < 0$ 。这表示模型比简单均值预测还要差，说明模型完全不适用于该数据集。

在图中：

分子（蓝色部分）表示预测值与真实值之间的误差平方和（RSS）。
分母（绿色部分）表示真实值与均值之间的误差平方和（TSS）。
公式的意义：
- 当预测误差较小时，RSS 较小，使得 $R^2$ 趋近于 1，表示模型较好。
- 当预测误差较大时，RSS 接近或超过 TSS，导致 $R^2$ 接近 0 或负值，说明模型较差。

假设我们有以下数据：

计算均值：
$\bar{y} = \frac{3 + 5 + 7 + 9}{4} = 6$
计算总平方和 TSS：
$TSS = (3 - 6)^2 + (5 - 6)^2 + (7 - 6)^2 + (9 - 6)^2= 9 + 1 + 1 + 9 = 20$
计算残差平方和 RSS：
$RSS = (3 - 2.8)^2 + (5 - 5.2)^2 + (7 - 6.9)^2 + (9 - 9.1)^2= 0.04 + 0.04 + 0.01 + 0.01 = 0.1$
计算 $R^2$ ：
$R^2 = 1 - \frac{0.1}{20} = 0.995$
说明模型的拟合效果非常好。

虽然 $R^2$ 是一个重要的评估指标，但它也有一些局限性：

不能直接判断模型是否合适
- 高 $R^2$ 可能是由于过拟合，即模型学到了训练数据的噪声而不是数据的真实模式。
- 低 $R^2$ 并不一定代表模型无效，有时目标变量本身就具有很大随机性。
不能用于非线性关系
- $R^2$ 主要用于线性回归模型，如果数据具有非线性关系，即使模型有效，R2R^2R2 也可能较低。
不能解释因果关系
- 高 $R^2$ 仅表明自变量和因变量之间的相关性，但不能说明自变量是否真正导致因变量的变化。