当前位置: 首页 > article >正文

【漫话机器学习系列】133.决定系数(R²:Coefficient of Determination)

决定系数(R^2)详解

决定系数(R^2)是回归分析中用于评估模型拟合优度的一个重要统计指标。它表示自变量(特征变量)能够解释因变量(目标变量)变异的程度,取值范围为 [0,1] 或 (−∞,1](取决于模型情况)。在本篇文章中,我们将详细解析 R^2 的数学公式、直观理解、计算方法及其在回归分析中的应用。


1. R^2 的数学定义

决定系数的公式如下:

R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}

其中:

  • y_i :真实值(True Y)
  • \hat{y}_i​ :模型预测值(Predicted Y)
  • \bar{y}:真实值的均值(Mean True Y)
  • \sum (y_i - \hat{y}_i)^2残差平方和(Residual Sum of Squares, RSS),衡量模型预测值与真实值之间的误差。
  • \sum (y_i - \bar{y})^2总平方和(Total Sum of Squares, TSS),衡量目标变量本身的方差。

(1)分子:残差平方和 RSS

RSS = \sum (y_i - \hat{y}_i)^2

这一项表示模型预测值与真实值之间的误差。误差越大,模型拟合效果越差。

(2)分母:总平方和 TSS

TSS = \sum (y_i - \bar{y})^2

它表示目标变量本身的方差,即目标变量 Y 的离散程度。总平方和衡量的是如果我们用 均值 \bar{y} 作为预测值,而不使用任何回归模型时的误差。

(3)决定系数 R^2 的直观意义

R2R^2R2 可以理解为:

  • 模型解释了多少目标变量的变化。如果 R^2 = 0.8,意味着模型可以解释 80% 的目标变量变异。
  • 模型的拟合优度R^2 越接近 1,说明模型的预测能力越强;越接近 0,说明模型几乎没有预测能力。

2. R^2 的取值范围及解读

(1)R^2 = 1

如果 R^2 = 1,则:

\sum (y_i - \hat{y}_i)^2 = 0

即所有预测值完全等于真实值,说明模型完美拟合数据。但这种情况在现实中极少出现,通常发生在过拟合时。

(2)R^2 = 0

如果 R^2 = 0,则:

\sum (y_i - \hat{y}_i)^2 = \sum (y_i - \bar{y})^2

表示模型预测的误差与直接使用均值预测的误差相同,说明模型没有任何预测能力。

(3)R^2 < 0

理论上 R^2 不会小于 0,但在某些情况下(如使用不适合的数据或非线性模型时),可能出现 R^2 < 0。这表示模型比简单均值预测还要差,说明模型完全不适用于该数据集。


3. R^2 的直观解释

在图中:

  • 分子(蓝色部分)表示预测值与真实值之间的误差平方和(RSS)。
  • 分母(绿色部分)表示真实值与均值之间的误差平方和(TSS)。
  • 公式的意义
    • 当预测误差较小时,RSS 较小,使得 R^2 趋近于 1,表示模型较好。
    • 当预测误差较大时,RSS 接近或超过 TSS,导致 R^2 接近 0 或负值,说明模型较差。

4. R^2 的计算示例

假设我们有以下数据:

真实值 y_i预测值 \hat{y}_i
32.8
55.2
76.9
99.1
  1. 计算均值:

    \bar{y} = \frac{3 + 5 + 7 + 9}{4} = 6
  2. 计算总平方和 TSS:

    TSS = (3 - 6)^2 + (5 - 6)^2 + (7 - 6)^2 + (9 - 6)^2= 9 + 1 + 1 + 9 = 20
  3. 计算残差平方和 RSS:

    RSS = (3 - 2.8)^2 + (5 - 5.2)^2 + (7 - 6.9)^2 + (9 - 9.1)^2= 0.04 + 0.04 + 0.01 + 0.01 = 0.1
  4. 计算 R^2

    R^2 = 1 - \frac{0.1}{20} = 0.995

    说明模型的拟合效果非常好。


5. R^2 的局限性

虽然 R^2 是一个重要的评估指标,但它也有一些局限性:

  1. 不能直接判断模型是否合适

    • R^2 可能是由于过拟合,即模型学到了训练数据的噪声而不是数据的真实模式。
    • R^2 并不一定代表模型无效,有时目标变量本身就具有很大随机性。
  2. 不能用于非线性关系

    • R^2 主要用于线性回归模型,如果数据具有非线性关系,即使模型有效,R2R^2R2 也可能较低。
  3. 不能解释因果关系

    • R^2 仅表明自变量和因变量之间的相关性,但不能说明自变量是否真正导致因变量的变化。

6. 结论

  • 决定系数 R^2 衡量模型对目标变量的解释能力,范围通常在 [0,1] 之间
  • R^2 = 1 代表完美拟合,R^2 = 0 代表模型无效,R^2 < 0 代表模型比随机预测还差
  • 尽管 R^2 是重要的评价指标,但在评估回归模型时,应该结合其他指标(如均方误差 MSE、调整 R^2)来全面分析模型性能

这篇文章结合了数学公式、直观理解、示例计算和实际应用,希望能帮助你深入理解决定系数(R^2


http://www.kler.cn/a/582418.html

相关文章:

  • 微电网管理 实现分布式能源的智能调度和管理
  • ROS——节点、工作空间、功能包
  • 【18】单片机编程核心技巧:变量赋值与高位填充机制
  • 每日一题——两两交换链表中的节点
  • 【实战ES】实战 Elasticsearch:快速上手与深度实践-8.1.1基于ES的语义搜索(BERT嵌入向量)
  • Spring Boot集成EasyExcel
  • 自学Java-Java高级技术(单元测试、反射、注解、动态代理)
  • wps word 正文部分段前段后间距调整无用
  • libpcap捕捉过滤wifi beacon包解析国标飞行器drone id报文
  • 【python-uiautomator2】手机上的ATX应用界面报错问题处理:无法提供服务,非am instrument启动
  • Percona XtraBackup8.0备份实例
  • 如何保证Redis与MySQL双写一致性?分布式场景下的终极解决方案
  • 免费的模型效果编辑器推荐
  • 在Selenium中,driver.close和driver.quit之间有什么区别?分别在什么时候用?
  • docker jar镜像打包
  • std::ranges::views::common, std::ranges::common_view
  • 七大常用智能家居协议对比
  • 双周报Vol.67: 模式匹配支持守卫、LLVM 后端发布、支持 Attribute 语法...多项核心技术更新!
  • Word 小黑第2套
  • 【记录】LaTex|ACM单双栏混合排版出现大量空白的调整方式(例如附带单栏的附录)